zurück ]      [ Stichworte ]      [ Die Hyper-Bibliothek ]      [ Systemtheorie ]         [ Meine Bücher ]

Weaver, Warren: Jüngste Beiträge zu Die mathematische Theorie der Kommunikation.
Vorwort zu Shannon, Claude: Mathematische Grundlagen der Kommunikationstheorie
Orig: Some Recent Contributions to the Mathematical Theory of Communication" (1948/1976, S. 1-29)

Volltext deutsch durch deepL

Jüngste Beiträge zu
Die mathematische Theorie der Kommunikation
Warren Weaver
September 1949

Kurzfassung

Dieses Papier ist in drei Hauptabschnitte gegliedert. Im ersten und dritten Abschnitt ist W. W. sowohl für die Ideen als auch für die Form verantwortlich. Der mittlere Abschnitt, nämlich "2), Communication Problems of Level A", ist eine Interpretation von mathematischen Arbeiten von Dr. Claude E. Shannon von den Bell Telephone Laboratories. Dr. Shannons Arbeit geht, wie von Neumann bemerkt hat, auf Boltzmanns Beobachtung in einigen seiner Arbeiten über statistische Physik (1894) zurück, dass Entropie mit "fehlender Information" zusammenhängt, insofern als sie mit der Anzahl der Alternativen zusammenhängt, die einem physikalischen System möglich bleiben, nachdem alle makroskopisch beobachtbaren Informationen über dieses System aufgezeichnet worden sind. L. Szilard (Zsch. f. Phys. Vol. 53, 1925) dehnte diese Idee auf eine allgemeine Diskussion der Information in der Physik aus, und von Neumann (Math. Foundation of Quantum Mechanics, Berlin, 1932, Kap. V) behandelte die Information in der Quantenmechanik und der Teilchenphysik. Dr. Shannons Arbeit knüpft direkter an bestimmte Ideen an, die vor etwa zwanzig Jahren von H. Nyquist und R. V. L. Hartley, beide Bell Laboratories, entwickelt wurden; und Dr. Shannon selbst hat betont, dass die Kommunikationstheorie für einen Großteil ihrer grundlegenden Philosophie Professor Norbert Wiener viel zu verdanken hat. Professor Wiener weist andererseits darauf hin, dass Shannons frühe Arbeiten über das Schalten und die mathematische Logik sein eigenes Interesse an diesem Gebiet vorweggenommen haben; und fügt großzügig hinzu, dass Shannon sicherlich Anerkennung für die unabhängige Entwicklung solch fundamentaler Aspekte der Theorie wie die Einführung entropischer Ideen verdient. Shannon war natürlich besonders daran interessiert, die Anwendungen auf die technische Kommunikation voranzutreiben, während sich Wiener mehr mit der biologischen Anwendung (Phänomene des Zentralnervensystems usw.) befasste.

1 Einleitende Anmerkung zur allgemeinen Einstellung der analytischen Kommunikationswissenschaften

1.1 Kommunikation

Das Wort Kommunikation wird hier in einem sehr weiten Sinne verwendet, um alle Verfahren einzubeziehen, durch die ein Geist einen anderen beeinflussen kann. Dazu gehören natürlich nicht nur die schriftliche und mündliche Rede, sondern auch die Musik, die bildenden Künste, das Theater, das Ballett und in der Tat das gesamte menschliche Verhalten. In einigen Zusammenhängen mag es wünschenswert sein, eine noch weiter gefasste Definition von Kommunikation zu verwenden, nämlich eine, die die Verfahren einschließt, durch die ein Mechanismus (z.B. automatische Geräte zur Verfolgung eines Flugzeugs und zur Berechnung seiner wahrscheinlichen künftigen Positionen) einen anderen Mechanismus (z.B. eine Lenkrakete, die dieses Flugzeug verfolgt) beeinflusst.

Die Sprache dieses Memorandums wird oft den Anschein erwecken, als beziehe sie sich auf den speziellen, aber immer noch sehr weiten und wichtigen Bereich der Sprachmittlung; aber praktisch alles Gesagte gilt gleichermaßen für Musik jeder Art und für stehende oder bewegte Bilder, wie im Fernsehen.

== 1 ==

1.2 Kommunikationsprobleme auf drei Ebenen

In Bezug auf das breite Thema der Kommunikation scheint es Probleme auf drei Ebenen zu geben. Daher erscheint es vernünftig, seriell zu fragen:

STUFE A. Wie genau können die Symbole der Kommunikation übertragen werden? (Das technische Problem.)

STUFE B. Wie genau vermitteln die übermittelten Symbole die gewünschte Bedeutung? (Das semantische Problem.)

STUFE C. Wie wirksam beeinflusst die empfangene Bedeutung das Verhalten in der gewünschten Weise? (Das Problem der Wirksamkeit.)

Die technischen Probleme betreffen die Genauigkeit der Übertragung von Zeichensätzen vom Sender zum Empfänger (geschriebene Sprache), oder eines sich ständig verändernden Signals (Telefon- oder Funkübertragung von Sprache oder Musik), oder eines sich ständig verändernden zweidimensionalen Musters (Fernsehen), usw. Mathematisch gesehen handelt es sich bei der ersten um die Übertragung einer endlichen Menge diskreter Symbole, bei der zweiten um die Übertragung einer kontinuierlichen Funktion der Zeit und bei der dritten um die Übertragung vieler kontinuierlicher Funktionen der Zeit oder einer kontinuierlichen Funktion der Zeit und zweier Raumkoordinaten.

Bei den semantischen Problemen geht es um die Identität bzw. zufriedenstellende Annäherung der Bedeutungsinterpretation durch den Empfänger im Vergleich zur beabsichtigten Bedeutung des Senders. Dies ist eine sehr tiefe und verwickelte Situation, selbst wenn man sich nur mit den relativ einfacheren Problemen der Kommunikation durch Sprache befasst.

Eine wesentliche Komplikation wird durch die Bemerkung veranschaulicht, dass, wenn Herr X verdächtigt wird, nicht zu verstehen, was Herr Y sagt, es theoretisch nicht möglich ist, indem Herr Y nichts anderes tut, als mit Herrn X weiter zu reden, um diese Situation in irgendeiner endlichen Zeit vollständig zu klären. Wenn Herr Y sagt: "Verstehen Sie mich jetzt?" und Herr X sagt: "Natürlich verstehe ich Sie", ist dies nicht unbedingt eine Bestätigung, dass das Verständnis erreicht wurde. Es kann sein, dass Herr X die Frage nicht verstanden hat. Wenn das albern klingt, versuchen Sie es noch einmal als "Czy pafi mnie rozumie?" mit der Antwort "Hai wakkate imasu". Ich denke, dass diese grundsätzliche Schwierigkeit (1) zumindest im eingeschränkten Bereich der sprachlichen Kommunikation durch "Erklärungen", die (a) vermutlich nie mehr als Annäherungen an die zu erklärenden Ideen sind, die aber (b) verständlich sind, da sie in einer Sprache formuliert sind, die zuvor durch operationelle Mittel einigermaßen deutlich gemacht wurde, auf ein erträgliches Maß reduziert (aber nie ganz eliminiert) wird. Es dauert zum Beispiel nicht lange, bis das Symbol für "Ja" in jeder Sprache operativ verständlich ist.

Das semantische Problem hat weite Auswirkungen, wenn man an Kommunikation im Allgemeinen denkt. Denken Sie zum Beispiel an die Bedeutung eines US-Wochenschau-Bildes für einen Russen.

Bei den Effektivitätsproblemen geht es um den Erfolg, mit dem die dem Empfänger vermittelte Bedeutung zu dem von ihm gewünschten Verhalten führt. Es mag auf den ersten Blick unerwünscht eng erscheinen, zu implizieren, dass der Zweck jeder Kommunikation darin besteht, das Verhalten des Empfängers zu beeinflussen. Aber bei jeder einigermaßen weit gefassten Definition von Verhalten ist klar, dass Kommunikation entweder das Verhalten beeinflusst oder überhaupt keine erkennbaren und wahrscheinlichen Auswirkungen hat.

1 "Als Pfungst (1911) zeigte, dass die Elberfelder Pferde, die eine wunderbare sprachliche und mathematische Begabung zeigten, lediglich auf Bewegungen des Trainerkopfes reagierten, begegnete ihr Besitzer, Herr Krall (1911), der Kritik am direktesten. Er fragte die Pferde, ob sie solche kleinen Bewegungen sehen könnten, und sie antworteten mit einem deutlichen "Nein". Leider können wir nicht alle so sicher sein, dass unsere Fragen verstanden werden oder so klare Antworten erhalten". Siehe Lashley, K. S., "Persistent Problems in the Evolution of Mind" in Quarterly Review of Biology, V. 24, März 1949, S. 28.

== 2 ==

Das Problem der Wirksamkeit beinhaltet im Falle der bildenden Kunst ästhetische Überlegungen. Im Falle der Rede, ob schriftlich oder mündlich, beinhaltet sie Überlegungen, die von der bloßen Mechanik des Stils über alle psychologischen und emotionalen Aspekte der Propagandatheorie bis hin zu jenen Werturteilen reichen, die notwendig sind, um den Wörtern "Erfolg" und "erwünscht" im einleitenden Satz dieses Abschnitts über Wirksamkeit eine nützliche Bedeutung zu geben.

Das Effektivitätsproblem ist eng mit dem semantischen Problem verknüpft und überschneidet es auf recht vage Weise; und es gibt tatsächlich Überschneidungen zwischen allen vorgeschlagenen Problemkategorien.

1.3 Anmerkungen

So gesagt, würde man geneigt sein zu denken, dass Ebene A eine relativ oberflächliche Ebene ist, die nur die technischen Details eines guten Entwurfs eines Kommunikationssystems umfasst, während B und C den meisten, wenn nicht sogar den gesamten philosophischen Inhalt des allgemeinen Kommunikationsproblems zu enthalten scheinen.

Die mathematische Theorie der ingenieurwissenschaftlichen Aspekte der Kommunikation, wie sie vor allem von Claude Shannon an den Bell Telephone Laboratories entwickelt wurde, gilt freilich zunächst nur für das Problem A, nämlich das technische Problem der Genauigkeit der Übertragung verschiedener Arten von Signalen vom Sender zum Empfänger. Aber die Theorie hat, glaube ich, eine tiefe Bedeutung, die beweist, dass der vorstehende Absatz ernsthaft ungenau ist. Ein Teil der Bedeutung der neuen Theorie ergibt sich aus der Tatsache, dass die obigen Ebenen B und C nur diejenigen Signalgenauigkeiten nutzen können, die sich bei der Analyse auf Ebene A als möglich erweisen. Daher gelten alle Einschränkungen, die in der Theorie auf Ebene A entdeckt werden, notwendigerweise auch für die Ebenen B und C. Ein größerer Teil der Bedeutung ergibt sich jedoch aus der Tatsache, dass die Analyse auf Ebene A offenbart, dass diese Ebene die anderen Ebenen mehr überlappt, als man naiv vermuten könnte. Somit ist die Theorie der Stufe A zumindest zu einem wesentlichen Teil auch eine Theorie der Stufen B und C. Ich hoffe, dass die nachfolgenden Teile dieses Memorandums diese letzten Bemerkungen erhellen und rechtfertigen werden.

2 Kommunikationsprobleme auf Stufe A

2.1 Ein Kommunikationssystem und seine Probleme

Das betrachtete Kommunikationssystem kann symbolisch wie folgt dargestellt werden: (siehe Seite 4)

Die Informationsquelle wählt eine gewünschte Nachricht aus einer Reihe von möglichen Nachrichten aus (dies ist eine besonders wichtige Bemerkung, die später umfangreiche Erläuterungen erfordert). Die ausgewählte Nachricht kann aus geschriebenen oder gesprochenen Worten oder aus Bildern, Musik usw. bestehen.

Der Sender wandelt diese Nachricht in das Signal um, das tatsächlich über den Kommunikationskanal vom Sender zum Empfänger gesendet wird. Im Falle der Telefonie ist der Kanal ein Draht, das Signal ein veränderlicher elektrischer Strom auf diesem Draht; der Sender ist die Gesamtheit der Geräte (Telefonsender usw.), die den Schalldruck der Stimme in den veränderlichen elektrischen Strom umwandeln. In der Telegraphie kodiert der Sender geschriebene Worte in Folgen von unterbrochenen Strömen unterschiedlicher Länge (Punkte, Striche, Leerzeichen). Bei der mündlichen Sprache ist die Informationsquelle das Gehirn, der Sender ist der Stimmmechanismus, der den variierenden Schalldruck (das Signal) erzeugt, der durch die Luft (den Kanal) übertragen wird. Im Radio ist der Kanal einfach der Raum (oder der Äther, falls jemand noch dieses antiquierte und irreführende Wort bevorzugt), und das Signal ist die elektromagnetische Welle, die übertragen wird.

== 3 ==

Der Empfänger ist eine Art inverser Sender, der das übertragene Signal wieder in eine Nachricht umwandelt und diese Nachricht an das Ziel weiterleitet. Wenn ich zu Ihnen spreche, ist mein Gehirn die Informationsquelle, Ihres das Ziel; mein Stimmensystem ist der Sender, und Ihr Ohr und der damit verbundene achte Nerv ist der Empfänger.

Bei der Übertragung ist es leider charakteristisch, dass dem Signal bestimmte Dinge hinzugefügt werden, die von der Informationsquelle nicht beabsichtigt waren. Diese unerwünschten Zusätze können Verzerrungen des Tons (z.B. in der Telefonie) oder des Tons (im Radio), oder Verzerrungen in Form oder Schattierung des Bildes (Fernsehen), oder Fehler in der Übertragung (Telegraphie oder Faksimile), usw. sein. Alle diese Änderungen im übertragenen Signal werden als Rauschen bezeichnet.

Die Art von Fragen, die man sich zu einem solchen Kommunikationssystem stellen möchte, sind
a. Wie misst man die Menge an Informationen?
b. Wie misst man die Kapazität eines Kommunikationskanals?
c. Die Handlung des Senders bei der Umwandlung der Nachricht in das Signal beinhaltet oft einen Kodierungsprozess. Was sind die Merkmale eines effizienten Kodierungsprozesses? Und wenn die Kodierung so effizient wie möglich ist, mit welcher Geschwindigkeit kann der Kanal Informationen übertragen?
d. Was sind die allgemeinen Merkmale von Lärm? Wie wirkt sich Lärm auf die Genauigkeit der schließlich am Zielort empfangenen Nachricht aus? Wie kann man die unerwünschten Auswirkungen von Lärm minimieren, und inwieweit lassen sie sich beseitigen?
e. Wenn das übertragene Signal kontinuierlich ist (wie bei mündlicher Sprache oder Musik) und nicht aus diskreten Symbolen besteht (wie bei schriftlicher Sprache, Telegrafie usw.), wie wirkt sich diese Tatsache auf das Problem aus? Wir werden nun ohne jegliche Beweise und mit einem Minimum an mathematischer Terminologie die wichtigsten Ergebnisse darlegen, die Shannon erzielt hat.

2.2 Informationen

Das Wort Information wird in dieser Theorie in einem speziellen Sinn verwendet, der nicht mit dem gewöhnlichen Gebrauch verwechselt werden darf. Insbesondere darf Information nicht mit Bedeutung verwechselt werden.

== 4 ==

Tatsächlich können zwei Botschaften, von denen die eine stark bedeutungsbeladen und die andere reiner Unsinn ist, aus heutiger Sicht hinsichtlich der Information genau gleichwertig sein. Genau das meint Shannon zweifellos, wenn er sagt, dass "die semantischen Aspekte der Kommunikation für die technischen Aspekte irrelevant sind". Dies bedeutet jedoch nicht, dass die ingenieurtechnischen Aspekte notwendigerweise irrelevant für die semantischen Aspekte sind.

Allerdings bezieht sich dieses Wort Information in der Kommunikationstheorie nicht so sehr auf das, was man sagt, sondern auf das, was man sagen könnte. Das heißt, Information ist ein Maß für die Wahlfreiheit, die man hat, wenn man eine Botschaft auswählt. Wenn man mit einer sehr elementaren Situation konfrontiert wird, in der man sich für eine von zwei alternativen Botschaften entscheiden muss, dann wird willkürlich gesagt, dass die Information, die mit dieser Situation verbunden ist, Einheit ist. Beachten Sie, dass es irreführend (wenn auch oft bequem) ist zu sagen, dass die eine oder andere Botschaft Informationen über die Einheit vermittelt. Der Begriff der Information bezieht sich nicht auf die einzelnen Botschaften (wie es der Begriff der Bedeutung tun würde), sondern auf die Situation als Ganzes, wobei die Einheitsinformation angibt, dass man in dieser Situation bei der Auswahl einer Botschaft ein gewisses Maß an Wahlfreiheit hat, die man bequem als Standard oder Einheitsbetrag betrachten kann.

Die beiden Botschaften, zwischen denen man bei einer solchen Auswahl wählen muss, können alles sein, was man will. Das eine könnte der Text der King James-Bibelversion sein, das andere könnte "Ja" lauten. Der Sender könnte diese beiden Nachrichten so codieren, dass "Null" das Signal für die erste und "Eins" das Signal für die zweite Nachricht ist; oder so, dass ein geschlossener Stromkreis (Strom fließt) das Signal für die erste und ein offener Stromkreis (kein Strom fließt) das Signal für die zweite Nachricht ist. So könnten die beiden Positionen, geschlossen und offen, eines einfachen Relais den beiden Meldungen entsprechen.

Um etwas genauer zu sein, wird die Informationsmenge in den einfachsten Fällen durch den Logarithmus der Anzahl der verfügbaren Wahlmöglichkeiten gemessen. Da es bequemer ist, Logarithmen (2) zur Basis 2 anstelle des gewöhnlichen oder Briggs'schen Logarithmus zur Basis 10 zu verwenden, ist die Information, wenn es nur zwei Möglichkeiten gibt, proportional zum Logarithmus von 2 zur Basis 2. Aber das ist Einheit; so dass eine Situation mit zwei Wahlmöglichkeiten durch die Information der Einheit gekennzeichnet ist, wie bereits oben ausgeführt wurde. Diese Informationseinheit wird als "Bit" bezeichnet, wobei dieses Wort, das zuerst von John W. Tukey vorgeschlagen wurde, eine Verdichtung der "Binärziffer" ist. Wenn Zahlen im Binärsystem ausgedrückt werden, gibt es nur zwei Ziffern, nämlich 0 und 1; genauso wie zehn Ziffern, 0 bis einschließlich 9, im Dezimalziffernsystem verwendet werden, das 10 als Basis verwendet. Null und Eins können, wie oben erwähnt, symbolisch für zwei beliebige Wahlmöglichkeiten verwendet werden, so dass "Binärziffer" oder "Bit" natürlich mit der Zwei-Wahl-Situation assoziiert werden kann, in der Einheitsinformationen vorliegen.

Wenn man z.B. 16 alternative Botschaften zur Verfügung hat, unter denen man ebenfalls frei wählen kann, dann sagt man, dass diese Situation durch 4 Informationsbits gekennzeichnet ist, da 16 = 2 hoch4 so dass log2 16 = 4 ist.

Es erscheint zweifellos seltsam, wenn man der Definition zum ersten Mal begegnet, wonach Information als Logarithmus der Anzahl der Wahlmöglichkeiten definiert wird. Doch bei der Entfaltung der Theorie wird immer deutlicher, dass logarithmische Maße tatsächlich die natürlichen sind. Im Moment wird nur ein Hinweis darauf gegeben. Es wurde bereits erwähnt, dass ein einfaches Ein- oder Aus-Relais mit seinen beiden mit 0 bzw. I bezeichneten Stellungen eine Informationssituation einer Einheit bewältigen kann, in der es nur zwei Möglichkeiten der Nachrichtenübermittlung gibt. Wenn ein Relais die Einheitsinformationen verarbeiten kann, wie viel können dann beispielsweise drei Relais verarbeiten? Es scheint sehr vernünftig sagen zu wollen, dass drei Relais dreimal so viele Informationen verarbeiten könnten wie eines. Und das ist in der Tat so, wenn man die logarithmische Definition von Information verwendet. Denn drei Relais sind in der Lage, auf oder 8 Wahlmöglichkeiten zu reagieren, die symbolisch als 000, 001, 011, 010, 100, 110, 101, 111 geschrieben werden könnten, wobei im ersten Relais alle drei Relais offen und im letzten alle drei Relais geschlossen sind. Und der Logarithmus zur Basis 2 von ist 3, so dass das logarithmische Maß dieser Situation drei Informationseinheiten zuordnet, so wie man es sich wünschen würde.

2 Wenn m hoch x = y, dann soll x der Logarithmus von y von zur Basis m sein.

== 5 ==

In ähnlicher Weise verdoppelt die Verdoppelung der verfügbaren Zeit Quadrate die Anzahl der möglichen Nachrichten, und verdoppelt den Logarithmus; und verdoppelt somit die Information, wenn sie logarithmisch gemessen wird.

Die bisherigen Ausführungen beziehen sich auf künstlich einfache Situationen, in denen die Informationsquelle nur zwischen mehreren eindeutigen Botschaften wählen kann - wie ein Mann, der sich aus einer Reihe von Standard-Geburtstagsgrußtelegrammen eine auswählt. Eine natürlichere und wichtigere Situation ist die, in der die Informationsquelle eine Folge von Auswahlmöglichkeiten aus einer Reihe von elementaren Symbolen trifft, wobei die ausgewählte Folge dann die Botschaft bildet. So kann ein Mann ein Wort nach dem anderen herausgreifen, wobei sich diese einzeln ausgewählten Wörter dann zu einer Botschaft summieren.

An diesem Punkt rückt eine wichtige Überlegung, die bisher im Hintergrund stand, in den Vordergrund und erregt große Aufmerksamkeit. Nämlich die Rolle, die die Wahrscheinlichkeit bei der Generierung der Nachricht spielt. Denn so wie die aufeinanderfolgenden Symbole ausgewählt werden, sind diese Entscheidungen, zumindest aus der Sicht des Kommunikationssystems, von Wahrscheinlichkeiten bestimmt; und zwar von Wahrscheinlichkeiten, die nicht unabhängig sind, sondern in jeder Phase des Prozesses von den vorhergehenden Entscheidungen abhängen. Wenn wir uns also mit der englischen Sprache befassen und das zuletzt gewählte Symbol "the" ist, dann ist die Wahrscheinlichkeit, dass das nächste Wort ein Artikel oder eine andere Verbform als ein Verb ist, sehr gering. Dieser probabilistische Einfluss erstreckt sich über mehr als zwei Worte, in der Tat. Nach den drei Wörtern "für den Fall" ist die Wahrscheinlichkeit für "dass" als nächstes Wort ziemlich hoch, und für "Elefant" als nächstes Wort ist die Wahrscheinlichkeit sehr gering.

Dass es Wahrscheinlichkeiten gibt, die eine gewisse Kontrolle über die englische Sprache ausüben, wird auch deutlich, wenn man z.B. daran denkt, dass das Wörterbuch in unserer Sprache keine Wörter enthält, in denen auf den Anfangsbuchstaben j die Buchstaben b, c, d, f, g, j, k, 1, q, r, t, v, w, x oder z folgen; so dass die Wahrscheinlichkeit tatsächlich Null ist, dass auf einen Anfangsbuchstaben j einer dieser Buchstaben folgt. Ebenso würde jeder zustimmen, dass die Wahrscheinlichkeit für eine Wortfolge wie "Konstantinopel fischt fieses Rosa" gering ist. Sie ist übrigens niedrig, aber nicht null; denn es ist durchaus möglich, sich eine Passage auszudenken, in der ein Satz mit "Konstantinopel fischen" schließt und der nächste mit "Ekelhaftes Rosa" beginnt. Und wir könnten am Rande beobachten, dass die unwahrscheinliche Vier-Wort-Reihenfolge, um die es hier geht, in einem einzigen guten englischen Satz, nämlich dem oben genannten, aufgetreten ist.

Ein System, das nach bestimmten Wahrscheinlichkeiten eine Folge von Symbolen (bei denen es sich natürlich nicht nur um Wörter, sondern beispielsweise um Buchstaben oder Musiknoten handeln kann) erzeugt, wird als stochastischer Prozess bezeichnet, und der Sonderfall eines stochastischen Prozesses, bei dem die Wahrscheinlichkeiten von den vorhergehenden Ereignissen abhängen, wird als Markoff-Prozess oder Markoff-Kette bezeichnet. Von den Markoff-Prozessen, die denkbarerweise Botschaften erzeugen könnten, gibt es eine spezielle Klasse, die für die Kommunikationstheorie von primärer Bedeutung ist, nämlich die so genannten ergodischen Prozesse. Die analytischen Details hier sind kompliziert und die Argumentation so tiefgründig und verwickelt, dass es einige der besten Anstrengungen der besten Mathematiker erfordert hat, um die zugehörige Theorie zu erstellen; aber die grobe Natur eines ergodischen Prozesses ist leicht zu verstehen. Es ist eine, die eine Abfolge von Symbolen hervorbringt, von der ein Meinungsforscher träumen würde, denn jede einigermaßen große Probe neigt dazu, für die Abfolge als Ganzes repräsentativ zu sein. Angenommen, zwei Personen wählen Stichproben auf unterschiedliche Weise aus und untersuchen, welche Trends ihre statistischen Eigenschaften zeigen würden, wenn die Stichproben größer werden. Wenn die Situation ergodisch ist, dann stimmen diese beiden Personen, wie auch immer sie ihre Proben ausgewählt haben mögen, in ihren Schätzungen der Eigenschaften des Ganzen überein. Ergodische Systeme weisen mit anderen Worten eine besonders sichere und beruhigende Art statistischer Regelmäßigkeit auf.

Kehren wir nun zum Begriff der Information zurück. Wenn wir über eine Informationsquelle verfügen, die eine Botschaft durch die sukzessive Auswahl diskreter Symbole (Buchstaben, Wörter, Musiknoten, Flecken einer bestimmten Größe usw.) erzeugt, wobei die Wahrscheinlichkeit der Auswahl der verschiedenen Symbole in einer Phase des Prozesses von den vorherigen Entscheidungen abhängt (d.h. einem Markoff-Prozess), wie steht es dann um die mit diesem Verfahren verbundenen Informationen?

== 6 ==

Die Menge, die den natürlichen Anforderungen, die man an "Information" stellt, in einzigartiger Weise gerecht wird, entpuppt sich als genau das, was in der Thermodynamik als Entropie bekannt ist. Sie drückt sich in den verschiedenen Wahrscheinlichkeiten aus, die damit verbunden sind - die Wahrscheinlichkeit, bestimmte Stadien im Prozess der Nachrichtenbildung zu erreichen, und die Wahrscheinlichkeit, dass in diesen Stadien bestimmte Symbole als nächstes gewählt werden. Die Formel beinhaltet zudem den Logarithmus der Wahrscheinlichkeiten, so dass es sich um eine natürliche Verallgemeinerung des logarithmischen Maßes handelt, von dem oben im Zusammenhang mit einfachen Fällen gesprochen wurde.

Für diejenigen, die die physikalischen Wissenschaften studiert haben, ist es von größter Bedeutung, dass ein entropieähnlicher Ausdruck in der Theorie als Maß für Information erscheint. Von Clausius vor fast einhundert Jahren eingeführt, eng mit dem Namen Boltzmann verbunden und von Gibbs in seiner klassischen Arbeit über die statistische Mechanik mit tiefer Bedeutung versehen, ist die Entropie zu einem so grundlegenden und allgegenwärtigen Konzept geworden, dass Eddington bemerkt: "Das Gesetz, dass die Entropie immer zunimmt - der zweite Hauptsatz der Thermodynamik - hat, glaube ich, die höchste Stellung unter den Naturgesetzen.

In den physikalischen Wissenschaften ist die Entropie, die mit einer Situation verbunden ist, ein Maß für den Grad der Zufälligkeit oder, wenn Sie so wollen, der "Schlurflosigkeit" in der Situation; und die Tendenz physikalischer Systeme, sich immer weniger zu organisieren, immer perfekter zu mischen, ist so grundlegend, dass Eddington argumentiert, dass es vor allem diese Tendenz ist, die der Zeit ihren Pfeil gibt - was uns zum Beispiel zeigen würde, ob ein Film der physikalischen Welt vorwärts oder rückwärts läuft.

Wenn man also dem Konzept der Entropie in der Kommunikationstheorie begegnet, hat man ein Recht darauf, ziemlich aufgeregt zu sein - ein Recht darauf, zu vermuten, dass man etwas in der Hand hat, das sich als grundlegend und wichtig erweisen könnte. Dass Information anhand der Entropie gemessen wird, ist schließlich ganz natürlich, wenn wir uns daran erinnern, dass Information in der Kommunikationstheorie mit dem Maß an Wahlfreiheit verbunden ist, das wir bei der Konstruktion von Nachrichten haben. So kann man für eine Kommunikationsquelle, wie er es auch von einem thermodynamischen Ensemble sagen würde, sagen: "Diese Situation ist hochgradig organisiert, sie ist nicht durch einen hohen Grad an Zufälligkeit oder Auswahl gekennzeichnet - d.h. die Information (oder die Entropie) ist gering. Wir werden später auf diesen Punkt zurückkommen, denn wenn ich mich nicht ganz irre, ist er ein wichtiger Aspekt der allgemeineren Bedeutung dieser Theorie.

Wenn man die Entropie (oder die Information oder die Wahlfreiheit) einer bestimmten Informationsquelle berechnet hat, kann man diese mit dem Maximalwert vergleichen, den diese Entropie haben könnte, nur unter der Bedingung, dass die Quelle weiterhin die gleichen Symbole verwendet. Das Verhältnis der tatsächlichen zur maximalen Entropie wird als relative Entropie der Quelle bezeichnet. Wenn die relative Entropie einer bestimmten Quelle z.B. 0,8 beträgt, bedeutet dies grob gesagt, dass diese Quelle in der Wahl der Symbole, aus denen eine Botschaft besteht, zu etwa 80 Prozent so frei ist, wie es mit denselben Symbolen möglich wäre. Eins minus der relativen Entropie wird als Redundanz bezeichnet. Dabei handelt es sich um den Bruchteil der Struktur der Nachricht, der nicht durch die freie Wahl des Absenders, sondern durch die anerkannten statistischen Regeln für die Verwendung der betreffenden Symbole bestimmt wird. Sie wird sinnvollerweise als Redundanz bezeichnet, denn dieser Teil der Nachricht ist in der Tat redundant in etwas, das dem gewöhnlichen Sinn nahe kommt; d.h. dieser Teil der Nachricht ist unnötig (und daher wiederholend oder redundant) in dem Sinne, dass die Nachricht, wenn sie fehlen würde, immer noch im Wesentlichen vollständig wäre oder zumindest vervollständigt werden könnte.

Es ist höchst interessant festzustellen, dass die Redundanz des Englischen nur etwa 50 Prozent beträgt,(3) so dass etwa die Hälfte der Buchstaben oder Wörter, die wir schriftlich oder mündlich auswählen, unserer freien Wahl unterliegen und etwa die Hälfte (obwohl wir uns dessen normalerweise nicht bewusst sind) wirklich von der statistischen Struktur der Sprache kontrolliert wird. Abgesehen von schwerwiegenderen Auswirkungen, die wir wiederum auf unsere Schlussdiskussion verschieben werden, ist es interessant festzustellen, dass eine Sprache mindestens 50 Prozent echte Freiheit (oder relative Entropie) bei der Wahl der Buchstaben haben muss, wenn man in der Lage sein will, zufriedenstellende Kreuzworträtsel zu konstruieren. Wenn es völlige Freiheit hat, dann ist jede Buchstabenreihe ein Kreuzworträtsel. Wenn es nur 20 Prozent der Freiheit hat, dann wäre es unmöglich, Kreuzworträtsel in einer solchen Komplexität und Anzahl zu konstruieren, die das Spiel populär machen würden. Shannon hat geschätzt, dass es möglich wäre, dreidimensionale Kreuzworträtsel zu konstruieren, wenn die englische Sprache nur eine Redundanz von etwa 30 Prozent hätte.

3 Die 50-Prozent-Schätzung berücksichtigt nur die statistische Struktur mit etwa acht Buchstaben, so dass der Endwert vermutlich etwas höher liegt.

== 7 ==

Bevor dieser Abschnitt über Information geschlossen wird, sei darauf hingewiesen, dass der eigentliche Grund dafür, dass sich die Analyse der Stufe A mit einem Informationsbegriff befasst, der die gesamte statistische Natur der Informationsquelle charakterisiert, und sich nicht mit den einzelnen Nachrichten befasst (und überhaupt nicht direkt mit der Bedeutung der einzelnen Nachrichten), darin besteht, dass aus technischer Sicht ein Kommunikationssystem mit dem Problem der Handhabung jeder Nachricht, die die Quelle produzieren kann, konfrontiert werden muss. Wenn es nicht möglich oder praktikabel ist, ein System zu entwerfen, das alles perfekt bewältigen kann, dann sollte das System so konzipiert sein, dass es die Aufgaben, die ihm am ehesten zugemutet werden, gut bewältigen kann, und sollte sich damit abfinden, für die seltene Aufgabe weniger effizient zu sein. Eine solche Überlegung führt sofort zu der Notwendigkeit, den statistischen Charakter des gesamten Ensembles von Botschaften zu charakterisieren, die eine bestimmte Art von Quelle produzieren kann und wird. Und Information, wie sie in der Kommunikationstheorie verwendet wird, tut genau dies.

Obwohl es keineswegs der Zweck dieser Arbeit ist, sich mit mathematischen Details zu befassen, erscheint es dennoch wesentlich, ein möglichst gutes Verständnis des entropieähnlichen Ausdrucks zu haben, der Informationen misst. Wenn es sich, wie in einem einfachen Fall, um eine Menge von n unabhängigen Symbolen oder um eine Menge von n unabhängigen vollständigen Nachrichten handelt, deren Auswahlwahrscheinlichkeiten P1, P2 .. Pn sind, dann lautet der tatsächliche Ausdruck für die Information

H = - [ P1 logP1 + P2 logP2 + Pn logPn

or

H = - ∑i Pi logPi

Wobei (4) das Symbol ∑ wie in der Mathematik üblich, anzeigt, dass man alle Begriffe wie den typischen summieren soll, Pi logPi als definierendes Muster geschrieben.

Das sieht etwas kompliziert aus; aber lassen Sie uns sehen, wie sich dieser Ausdruck in einigen einfachen Fällen verhält.

Nehmen wir zunächst an, dass wir nur zwischen zwei möglichen Botschaften wählen, deren Wahrscheinlichkeiten dann P1 für die erste und P2 = 1 - P1 für die andere sind. Rechnet man für diesen Fall mit dem numerischen Wert von H, so stellt sich heraus, dass H seinen größten Wert hat, nämlich 1, wenn die beiden Meldungen gleich wahrscheinlich sind, d.h. wenn P1 = P2 = 1/2 ist, d.h. wenn man völlig frei zwischen den beiden Meldungen wählen kann. Sobald eine Botschaft wahrscheinlicher wird als die andere (z.B. P1 größer als P2), sinkt der Wert von H. Und wenn eine Botschaft sehr wahrscheinlich ist (z.B. P1 fast eins und P2 fast null), ist der Wert von H sehr klein (fast null).

Im Grenzfall, wo eine Wahrscheinlichkeit Einheit (Gewissheit) und alle anderen Null (Unmöglichkeit) ist, dann ist H gleich Null (überhaupt keine Unsicherheit - keine Wahlfreiheit - keine Information).

So ist H am größten, wenn die beiden Wahrscheinlichkeiten gleich sind (d.h. wenn man völlig frei und unvoreingenommen in der Wahl ist), und reduziert sich auf Null, wenn die Wahlfreiheit verschwunden ist.

Die eben beschriebene Situation ist in der Tat typisch. Wenn es nicht zwei, sondern viele Wahlmöglichkeiten gibt, dann ist H am größten, wenn die Wahrscheinlichkeiten der verschiedenen Wahlmöglichkeiten so weit wie möglich gleich sind, wie es die Umstände erlauben - wenn man bei der Wahl so viel Freiheit wie möglich hat und so wenig wie möglich zu bestimmten Entscheidungen getrieben wird, die mehr als ihren Anteil an der Wahrscheinlichkeit haben.

4 Machen Sie sich keine Sorgen wegen des Minuszeichens. Jede Wahrscheinlichkeit ist eine Zahl kleiner oder gleich eins, und die Logarithmen von Zahlen kleiner als eins sind selbst negativ. Das Minuszeichen ist also notwendig, damit H tatsächlich positiv ist.

Nehmen wir andererseits an, dass eine Wahl eine Wahrscheinlichkeit nahe eins hat, so dass alle anderen Wahlmöglichkeiten Wahrscheinlichkeiten nahe Null haben. Dies ist eindeutig eine Situation, in der man stark auf eine bestimmte Wahl hin beeinflusst wird und daher wenig Wahlfreiheit hat. Und H rechnet in einem solchen Fall mit einem sehr geringen Wert - die Information (die Wahlfreiheit, die Unsicherheit) ist gering.

Wenn die Zahl der Fälle festgelegt wird, haben wir gerade gesehen, dass dann die Informationen umso größer sind, je mehr die Wahrscheinlichkeiten der verschiedenen Fälle nahezu gleich sind. Es gibt noch eine andere wichtige Möglichkeit, die Zahl der Fälle zu erhöhen, nämlich durch eine Erhöhung der Fallzahlen. Genauer gesagt, wenn alle Wahlmöglichkeiten gleich wahrscheinlich sind, wird die Auswahl umso größer sein, je mehr Wahlmöglichkeiten es gibt. Es gibt mehr "Informationen", wenn Sie frei aus einem Satz von fünfzig Standardmeldungen auswählen, als wenn Sie frei aus einem Satz von fünfundzwanzig auswählen.

2.3 Kapazität eines Kommunikationskanals

Nach der Diskussion des vorhergehenden Abschnitts überrascht es nicht, dass die Kapazität eines Kanals nicht anhand der Anzahl der Symbole, die er übertragen kann, sondern anhand der Informationen, die er überträgt, beschrieben werden soll. Oder besser gesagt, da sich dieser letzte Satz besonders gut für eine Fehlinterpretation des Wortes Information eignet, ist die Kapazität eines Kanals im Sinne seiner Fähigkeit zu beschreiben, das zu übertragen, was aus der Quelle einer bestimmten Information produziert wird.

Wenn es sich um eine einfache Quelle handelt, bei der alle Symbole die gleiche Zeitdauer haben (was z.B. bei der Fernschrift der Fall ist), wenn die Quelle so beschaffen ist, dass jedes gewählte Symbol s Informationsbits darstellt (die frei unter 2s Symbolen ausgewählt werden können), und wenn der Kanal z.B. n Symbole pro Sekunde übertragen kann, dann wird die Kapazität C des Kanals als ns Bits pro Sekunde definiert.

In einem allgemeineren Fall muss man die unterschiedlichen Längen der verschiedenen Symbole berücksichtigen. So beinhaltet der allgemeine Ausdruck für die Kapazität eines Kanals den Logarithmus der Anzahl der Symbole einer bestimmten Zeitdauer (was natürlich die Idee der Information einführt und dem Faktor s im einfachen Fall des vorhergehenden Absatzes entspricht); und beinhaltet auch die Anzahl der behandelten Symbole (was dem Faktor n des vorhergehenden Absatzes entspricht). Im allgemeinen Fall misst die Kapazität also nicht die Anzahl der pro Sekunde übertragenen Symbole, sondern vielmehr die Menge der pro Sekunde übertragenen Informationen, wobei Bits pro Sekunde als Einheit verwendet werden.

2.4 Kodierung

Zu Beginn wurde darauf hingewiesen, dass der Sender die Nachricht annimmt und sie in ein so genanntes Signal umwandelt, wobei letzteres das ist, was tatsächlich über den Kanal zum Empfänger gelangt.

Der Sender, in einem solchen Fall wie dem der Telefonie, wandelt lediglich das hörbare Sprachsignal in etwas um (den schwankenden elektrischen Strom auf der Telefonleitung), das gleichzeitig deutlich unterschiedlich, aber eindeutig gleichwertig ist. Aber der Sender kann eine viel komplexere Operation an der Nachricht durchführen, um das Signal zu erzeugen. Es könnte zum Beispiel eine schriftliche Nachricht nehmen und einen Code verwenden, um diese Nachricht in eine, sagen wir, Zahlenfolge zu verschlüsseln; diese Zahlen werden dann über den Kanal als Signal gesendet.

So sagt man im Allgemeinen, dass die Funktion des Senders darin besteht, die Nachricht zu kodieren, und die des Empfängers darin, sie zu dekodieren. Die Theorie sieht sehr hochentwickelte Sender und Empfänger vor - solche, die zum Beispiel "Erinnerungen" besitzen, so dass die Art und Weise, wie sie ein bestimmtes Symbol der Nachricht kodieren, nicht nur von diesem einen Symbol abhängt, sondern auch von früheren Symbolen der Nachricht und der Art und Weise, wie sie kodiert worden sind.

== 9 ==

Wir sind nun in der Lage, den in dieser Theorie aufgestellten fundamentalen Satz für einen rauschfreien Kanal, der diskrete Symbole überträgt, zu formulieren. Dieses Theorem bezieht sich auf einen Kommunikationskanal mit einer Kapazität von C Bits pro Sekunde, der Signale von einer Entropiequelle (oder Informationsquelle) von H Bits pro Sekunde annimmt. Das Theorem besagt, dass es durch die Entwicklung geeigneter Kodierungsverfahren für den Sender möglich ist, Symbole über den Kanal mit einer durchschnittlichen Rate (5) zu übertragen, die fast dem C/H entspricht, die aber, egal wie clever die Kodierung ist, nie dazu gebracht werden kann, den C/H zu überschreiten.

Die Bedeutung dieses Theorems soll etwas später sinnvoller diskutiert werden, wenn wir den allgemeineren Fall haben, dass Lärm vorhanden ist. Im Moment ist es jedoch wichtig, die kritische Rolle zu beachten, die die Kodierung spielt.

Denken Sie daran, dass die Entropie (oder Information), die mit dem Prozess verbunden ist, der Nachrichten oder Signale erzeugt, durch den statistischen Charakter des Prozesses bestimmt wird - durch die verschiedenen Wahrscheinlichkeiten für das Eintreffen in Nachrichtensituationen und für die Auswahl der nächsten Symbole in diesen Situationen. Der statistische Charakter von Nachrichten wird vollständig durch den Charakter der Quelle bestimmt. Aber der statistische Charakter des Signals, wie es tatsächlich von einem Kanal übertragen wird, und damit die Entropie im Kanal, wird sowohl durch das bestimmt, was man versucht, in den Kanal einzuspeisen, als auch durch die Fähigkeiten des Kanals, mit verschiedenen Signalsituationen umzugehen. In der Telegrafie zum Beispiel muss es Zwischenräume zwischen Punkten und Punkten, zwischen Punkten und Strichen und zwischen Strichen und Strichen geben, sonst wären die Punkte und Striche nicht zu erkennen.

Nun stellt sich heraus, dass, wenn ein Kanal bestimmte Einschränkungen dieser Art aufweist, die die vollständige Signalfreiheit einschränken, bestimmte statistische Signalcharakteristika vorhanden sind, die zu einer Signalentropie führen, die größer ist als bei jeder anderen statistischen Signalstruktur, und in diesem wichtigen Fall ist die Signalentropie genau gleich der Kanalkapazität.

Der beste Sender ist in der Tat derjenige, der die Nachricht so kodiert, dass das Signal genau die optimalen statistischen Eigenschaften aufweist, die für den zu verwendenden Kanal am besten geeignet sind, d.h. die Entropie des Signals (oder man kann auch sagen, des Kanals) maximieren und der Kapazität C des Kanals entsprechen.

Diese Art der Kodierung führt nach dem obigen Fundamentalsatz zu der maximalen Rate C/H für die Übertragung von Symbolen. Aber für diesen Gewinn an Übertragungsrate zahlt man einen Preis. Denn ziemlich perverserweise kommt es vor, dass man, wenn man die Kodierung immer mehr dem Ideal annähert, zu immer längeren Verzögerungen im Kodierungsprozess gezwungen wird. Diesem Dilemma begegnet man zum Teil dadurch, dass "lang" in elektronischen Geräten einen äußerst kleinen Sekundenbruchteil bedeuten kann, und zum Teil dadurch, dass man einen Kompromiss eingeht und den Gewinn an Übertragungsrate gegen den Verlust an Codierzeit abwägt.

2.5 Lärm

Wie wirkt sich Lärm auf Informationen aus? Information ist, wie wir uns immer wieder in Erinnerung rufen müssen, ein Maß für die Wahlfreiheit bei der Auswahl einer Botschaft. Je größer diese Wahlfreiheit und damit auch die Information, desto größer ist die Unsicherheit, dass es sich bei der tatsächlich gewählten Botschaft um eine bestimmte handelt. So gehen größere Wahlfreiheit, größere Unsicherheit und mehr Information Hand in Hand.

5) Wir erinnern uns, dass die Kapazität C die Idee der pro Sekunde übertragenen Information beinhaltet und daher in Bits pro Sekunde gemessen wird. Die Entropie H misst hier die Information pro Symbol, so dass das Verhältnis von C zu H die Symbole pro Sekunde misst.

== 10 ==

Wenn Rauschen eingeführt wird, dann enthält die empfangene Nachricht bestimmte Verzerrungen, bestimmte Fehler, bestimmtes Fremdmaterial, was sicherlich dazu führen würde, dass man sagen würde, dass die empfangene Nachricht aufgrund der Auswirkungen des Rauschens eine erhöhte Unsicherheit aufweist. Aber wenn die Unsicherheit erhöht wird, wird die Information erhöht, und das klingt, als ob der Lärm vorteilhaft wäre!

Es ist im Allgemeinen wahr, dass bei Rauschen das empfangene Signal mehr Informationen aufweist - oder besser gesagt, das empfangene Signal wird aus einem vielfältigeren Satz ausgewählt als das gesendete Signal. Dies ist eine Situation, die sehr schön die semantische Falle illustriert, in die man tappen kann, wenn man sich nicht daran erinnert, dass "Information" hier mit einer besonderen Bedeutung verwendet wird, die die Wahlfreiheit und damit die Unsicherheit darüber misst, welche Wahl getroffen wurde. Es ist daher möglich, dass das Wort Information entweder gute oder schlechte Konnotationen hat. Unsicherheit, die durch die Wahlfreiheit des Absenders entsteht, ist wünschenswerte Unsicherheit. Unsicherheit, die aufgrund von Fehlern oder durch den Einfluss von Lärm entsteht, ist unerwünschte Unsicherheit.

Es ist also klar, wo der Joker liegt, wenn er sagt, dass das empfangene Signal mehr Informationen enthält. Einige dieser Informationen sind falsch und unerwünscht und wurden über den Lärm eingeführt. Um die nützlichen Informationen im empfangenen Signal zu erhalten, müssen wir diesen Störanteil subtrahieren.

Bevor wir diesen Punkt klären können, müssen wir einen kleinen Umweg machen. Angenommen, man hat zwei Sätze von Symbolen, z.B. die von der Informationsquelle erzeugten Nachrichtensymbole und die tatsächlich empfangenen Signalsymbole. Die Wahrscheinlichkeiten dieser beiden Symbolsätze sind miteinander verknüpft, denn die Wahrscheinlichkeit, ein bestimmtes Symbol zu erhalten, hängt eindeutig davon ab, welches Symbol gesendet wurde. Ohne Fehler durch Rauschen oder andere Ursachen würden die empfangenen Signale genau den gesendeten Nachrichtensymbolen entsprechen; und bei Vorliegen möglicher Fehler würden die Wahrscheinlichkeiten für empfangene Symbole offensichtlich stark auf denen lasten, die den gesendeten Nachrichtensymbolen entsprechen oder diesen sehr nahe kommen.

Nun kann man in einer solchen Situation die so genannte Entropie einer Gruppe von Symbolen relativ zur anderen berechnen. Betrachten wir zum Beispiel die Entropie der Nachricht im Verhältnis zum Signal. Es ist bedauerlich, dass wir die Fragen, um die es hier geht, nicht verstehen können, ohne ins Detail zu gehen. Nehmen wir für den Moment an, dass man weiß, dass ein bestimmtes Signalsymbol tatsächlich empfangen wurde. Dann nimmt jedes Nachrichtensymbol eine bestimmte Wahrscheinlichkeit an - relativ groß für das Symbol, das mit dem empfangenen identisch oder diesem ähnlich ist, und relativ klein für alle anderen. Mit diesem Satz von Wahrscheinlichkeiten wird ein vorläufiger Entropiewert berechnet. Dies ist die Nachrichtenentropie unter der Annahme eines bestimmten bekannten Empfangs- oder Signalsymbols. Unter allen guten Bedingungen ist sein Wert gering, da die betreffenden Wahrscheinlichkeiten nicht ziemlich gleichmäßig auf die verschiedenen Fälle verteilt sind, sondern auf einen oder wenige Fälle stark belastet sind. Sein Wert wäre in jedem Fall null (siehe Seite 7), wenn das Rauschen vollständig fehlt, denn dann wären, da das Signalsymbol bekannt ist, alle Nachrichtenwahrscheinlichkeiten null, mit Ausnahme eines Symbols (nämlich des empfangenen), das eine Wahrscheinlichkeit der Einheit hätte.

Für jede Annahme bezüglich des empfangenen Signalsymbols kann man eine dieser versuchsweisen Nachrichtenentropien berechnen. Berechnen Sie sie alle und bilden Sie dann einen Mittelwert, wobei jedes einzelne entsprechend der Wahrscheinlichkeit des Signalsymbols gewichtet wird, die bei der Berechnung angenommen wurde. Entropien, die auf diese Weise berechnet werden, wenn es zwei Sätze von Symbolen zu berücksichtigen gibt, werden als relative Entropien bezeichnet. Die soeben beschriebene ist die Entropie der Nachricht relativ zum Signal, und Shannon hat dies auch die Äquivokation genannt.

Aus der Art und Weise, wie diese Äquivokation berechnet wird, können wir ersehen, welche Bedeutung sie hat. Es misst die durchschnittliche Unsicherheit in der Nachricht, wenn das Signal bekannt ist. Wenn es kein Rauschen gäbe, dann gäbe es keine Unsicherheit bezüglich der Botschaft, wenn das Signal bekannt ist. Wenn die Informationsquelle eine Restunsicherheit aufweist, nachdem das Signal bekannt ist, dann muss es sich um eine unerwünschte Unsicherheit aufgrund von Rauschen handeln.

== 11 ==

Die Diskussion der letzten Absätze dreht sich um die Größe "die durchschnittliche Unsicherheit in der Nachrichtenquelle, wenn das empfangene Signal bekannt ist". Sie lässt sich ebenso gut im Sinne der ähnlichen Größe "die durchschnittliche Unsicherheit bezüglich des empfangenen Signals, wenn die gesendete Nachricht bekannt ist" formulieren. Diese letztere Unsicherheit wäre natürlich auch gleich Null, wenn es keinen Lärm gäbe.

Was die Wechselbeziehung dieser Größen betrifft, so ist es leicht zu beweisen, dass

H(x) - Hy(x) = H(y) ....

wo H(x) die Entropie oder die Information der Nachrichtenquelle ist; die Entropie oder die Information .... der empfangenen Signale; die Äquivokation oder die Unsicherheit in der Nachrichtenquelle, wenn das Signal bekannt ist; .... die Unsicherheit in den empfangenen Signalen, wenn die gesendeten Nachrichten bekannt sind, oder der störende Teil der empfangenen Signalinformation, der auf Rauschen zurückzuführen ist. Die rechte Seite dieser Gleichung ist die nützliche Information, die trotz der schlechten Wirkung des Rauschens übertragen wird.

Es ist nun möglich zu erklären, was man unter der Kapazität C eines verrauschten Kanals versteht. Er ist in der Tat so definiert, dass er gleich der maximalen Rate (in Bits pro Sekunde) ist, mit der nützliche Informationen (d.h. Gesamtunsicherheit minus Rauschunsicherheit) über den Kanal übertragen werden können.

Warum spricht man hier von einem "Höchstsatz"? Was kann man tun, d.h. diese Rate größer oder kleiner machen? Die Antwort ist, dass man diese Rate beeinflussen kann, indem man eine Quelle wählt, deren statistische Merkmale in einem angemessenen Verhältnis zu den durch die Art des Kanals auferlegten Beschränkungen stehen. Das heißt, man kann die Rate der Übertragung nützlicher Informationen maximieren, indem man die richtige Kodierung verwendet (siehe Seiten 9 bis 10).

Und nun lassen Sie uns schließlich das grundlegende Theorem für einen verrauschten Kanal betrachten. Angenommen, dieser verrauschte Kanal hat in dem eben beschriebenen Sinne eine Kapazität C, angenommen, er nimmt von einer Informationsquelle ... an, die durch eine Entropie von Bits pro Sekunde gekennzeichnet ist, wobei die Entropie der empfangenen Signale Bits ... pro Sekunde ist. Ist die Kanalkapazität I gleich oder größer als , dann kann durch die Entwicklung geeigneter Codierungssysteme die Ausgabe der Quelle mit so wenig Fehler wie gewünscht über den Kanal übertragen werden. Wie gering die Fehlerhäufigkeit auch sein mag, es gibt einen Code, der den Anforderungen entspricht. Aber wenn die ... Kanalkapazität C geringer ist als die Entropie der Quelle, von der sie Nachrichten akzeptiert, dann ist es unmöglich, Codes zu entwickeln, die die Fehlerhäufigkeit so niedrig wie möglich reduzieren.

Wie schlau man auch immer mit dem Kodierungsverfahren umgeht, es wird immer wahr sein, dass nach dem Empfang des Signals eine unerwünschte (Rausch-)Unsicherheit darüber bestehen bleibt, was die Nachricht war; und diese unerwünschte ... Unsicherheit - diese Äquivokation - wird immer gleich oder größer als C sein. Darüber hinaus gibt es immer mindestens einen Code, der in der Lage ist, diese unerwünschte Unsicherheit bezüglich der Nachricht, ... auf einen Wert zu reduzieren, der C um einen willkürlich kleinen Betrag übersteigt.

Der wichtigste Aspekt ist natürlich, dass das Minimum an unerwünschten oder unechten Unsicherheiten nicht weiter reduziert werden kann, egal wie kompliziert oder angemessen der Kodierungsprozess ist. Dieses mächtige Theorem gibt eine präzise und fast verblüffend einfache Beschreibung der höchsten Zuverlässigkeit, die man je von einem Kommunikationskanal erhalten kann, der in Gegenwart von Lärm arbeitet.

Eine praktische Konsequenz, auf die Shannon hingewiesen hat, ist zu beachten. Da Englisch zu etwa 50 Prozent redundant ist, ließe sich durch ein geeignetes Verschlüsselungsverfahren etwa die Hälfte der Zeit der gewöhnlichen Telegraphie einsparen, vorausgesetzt, man würde über einen rauschfreien Kanal übertragen. Wenn auf einem Kanal Rauschen auftritt, hat es jedoch einen echten Vorteil, kein Kodierungsverfahren zu verwenden, das die gesamte Redundanz eliminiert. Denn die verbleibende Redundanz hilft, den Lärm zu bekämpfen. Das ist sehr leicht einzusehen, denn allein schon wegen der hohen Redundanz des Englischen hat man z.B. wenig oder gar keine Hemmungen, bei der Übertragung aufgetretene Rechtschreibfehler zu korrigieren.

== 12 ==

2.6 Fortlaufende Nachrichten

Bis zu diesem Zeitpunkt haben wir uns mit Botschaften beschäftigt, die aus diskreten Symbolen gebildet werden, da Wörter aus Buchstaben, Sätze aus Wörtern, eine Melodie aus Noten oder ein Halbtonbild aus einer endlichen Anzahl diskreter Punkte gebildet werden. Was passiert mit der Theorie, wenn man kontinuierliche Botschaften betrachtet, wie etwa die Sprechstimme mit ihrer kontinuierlichen Variation von Tonhöhe und Energie?

Sehr grob kann man sagen, dass die erweiterte Theorie mathematisch etwas schwieriger und komplizierter ist, aber nicht wesentlich anders. Viele der obigen Aussagen für den Einzelfall bedürfen keiner Änderung, andere wiederum erfordern nur geringfügige Änderungen.

Ein Umstand, der sehr hilfreich ist, ist folgender. Praktisch gesehen ist man immer an einem kontinuierlichen Signal interessiert, das aus einfachen harmonischen Bestandteilen nicht aller Frequenzen aufgebaut ist, sondern aus Frequenzen, die vollständig in einem Band von der Frequenz Null bis zu einer Frequenz von z.B. W Zyklen pro Sekunde liegen. Obwohl die menschliche Stimme höhere Frequenzen enthält, kann eine sehr zufriedenstellende Kommunikation über einen Telefonkanal erreicht werden, der nur Frequenzen bis zu, sagen wir, viertausend verarbeitet. Mit Frequenzen bis zu zehn- oder zwölftausend ist eine High-Fidelity-Radioübertragung von symphonischer Musik usw. möglich.

Es gibt ein sehr bequemes mathematisches Theorem, das besagt, dass ein kontinuierliches Signal, ^ Sekunden Dauer und bandbegrenzt in der Frequenz auf den Bereich von 0 bis ], vollständig durch die Angabe von ^_] Zahlen spezifiziert werden kann. Dies ist wirklich ein bemerkenswertes Theorem. Gewöhnlich kann eine kontinuierliche Kurve nur näherungsweise charakterisiert werden, indem man eine beliebige endliche Anzahl von Punkten angibt, durch die sie verläuft, und eine unendliche Anzahl wäre im Allgemeinen für eine vollständige Information über die Kurve erforderlich. Wenn die Kurve jedoch aus einfachen harmonischen Bestandteilen einer begrenzten Anzahl von Frequenzen aufgebaut ist, so wie ein komplexer Klang aus einer begrenzten Anzahl von reinen Tönen aufgebaut ist, dann ist nur eine endliche Anzahl von Parametern notwendig. Dies hat den mächtigen Vorteil, den Charakter des Kommunikationsproblems für kontinuierliche Signale von einer komplizierten Situation, in der man mit einer unendlichen Anzahl von Variablen umgehen müsste, auf eine wesentlich einfachere Situation zu reduzieren, in der man mit einer endlichen (wenn auch großen) Anzahl von Variablen zu tun hat.

In der Theorie für den kontinuierlichen Fall sind Formeln entwickelt worden, die die maximale Kapazität I eines Kanals der Frequenzbandbreite beschreiben ] wenn die durchschnittliche Sendeleistung ` ist, wobei der Kanal einem Rauschen der Leistung a ausgesetzt ist, wobei dieses Rauschen "weißes thermisches Rauschen" einer besonderen Art ist, die Shannon definiert. Dieses weiße thermische Rauschen ist selbst in seiner Frequenz bandbegrenzt, und die Amplituden der verschiedenen Frequenzbestandteile unterliegen einer normalen (Gaußschen) Wahrscheinlichkeitsverteilung. Unter diesen Umständen erhält Shannon das in seiner Einfachheit und seinem Umfang wirklich bemerkenswerte Theorem, dass es bei der besten Kodierung möglich ist, Binärziffern mit einer Rate von einem Bit pro Sekunde zu übertragen und eine willkürlich niedrige Fehlerhäufigkeit zu haben. Aber diese Rate kann unmöglich überschritten werden, egal wie clever die Kodierung auch sein mag, ohne dass es zu einer bestimmten Fehlerhäufigkeit kommt. Für den Fall eines willkürlichen Rauschens, anstelle des oben angenommenen speziellen "weißen thermischen" Rauschens, gelingt es Shannon nicht, eine explizite Formel für die Kanalkapazität abzuleiten, aber er erhält nützliche Ober- und Untergrenzen für die Kanalkapazität. Und er leitet auch Grenzen für die Kanalkapazität ab, wenn man nicht die durchschnittliche Leistung des Senders, sondern die momentane Spitzenleistung angibt.

Abschließend ist festzustellen, dass Shannon Ergebnisse erzielt, die notwendigerweise etwas weniger spezifisch sind, die aber von offensichtlich tiefer und weitreichender Bedeutung sind, die für eine allgemeine Art von kontinuierlicher Nachricht oder Signal die Treue der empfangenen Nachricht und die Konzepte der Rate, mit der eine Quelle Informationen erzeugt, der Übertragungsrate und der Kanalkapazität charakterisieren, wobei all dies im Verhältnis zu bestimmten Anforderungen an die Treue steht.

== 13 ==

3 Die Wechselbeziehung der drei Kommunikationsebenen-Probleme

3.1 Einleitung

Im ersten Abschnitt dieses Papiers wurde vorgeschlagen, dass es drei Ebenen gibt, auf denen man das allgemeine Kommunikationsproblem betrachten kann. Nämlich, darf man fragen:

STUFE A. Wie genau können die Kommunikationssymbole übertragen werden ?

STUFE B. Wie genau vermitteln die übermittelten Symbole die gewünschte Bedeutung?

STUFE C. Wie wirksam beeinflusst die empfangene Bedeutung das Verhalten in der gewünschten Weise?

Es wurde vorgeschlagen, dass die mathematische Theorie der Kommunikation, wie sie von Shannon, Wiener und anderen entwickelt wurde, und insbesondere die von Shannon behandelte eindeutigere Ingenieurstheorie, obwohl sie angeblich nur auf Probleme der Stufe A anwendbar ist, tatsächlich hilfreich und suggestiv für die Probleme der Stufen B und C ist.

In Abschnitt 2 haben wir dann einen Blick darauf geworfen, was diese mathematische Theorie ist, welche Konzepte sie entwickelt und welche Ergebnisse sie erzielt hat. Zweck dieses abschließenden Abschnitts ist es, die Situation zu überprüfen und festzustellen, inwieweit und in welcher Hinsicht der ursprüngliche Abschnitt gerechtfertigt war, als er darauf hinwies, dass die auf Ebene A erzielten Fortschritte zu den Ebenen B und C beitragen können, gerechtfertigt war, als er darauf hinwies, dass die Wechselbeziehung zwischen den drei Ebenen so erheblich ist, dass man letztlich zu dem Schluss kommen könnte, dass die Trennung in die drei Ebenen wirklich künstlich und unerwünscht ist.

3.2 Allgemeingültigkeit der Theorie auf Stufe A

Die offensichtliche erste Bemerkung, und in der Tat die Bemerkung, die die Hauptlast des Arguments trägt, ist, dass die mathematische Theorie überaus allgemein in ihrem Anwendungsbereich ist, grundlegend in den Problemen, die sie behandelt, und von klassischer Einfachheit und Kraft in den Ergebnissen, die sie erreicht.

Diese Theorie ist so allgemein gehalten, dass man nicht sagen muss, um welche Art von Symbolen es sich handelt - ob es sich um geschriebene Buchstaben oder Wörter, Musiknoten, gesprochene Worte, symphonische Musik oder Bilder handelt. Die Theorie ist tief genug, so dass die Beziehungen, die sie offenbart, unterschiedslos für all diese und andere Kommunikationsformen gelten. Das bedeutet natürlich, dass die Theorie ausreichend phantasievoll motiviert ist, so dass sie sich mit dem wirklichen inneren Kern des Kommunikationsproblems befasst - mit den grundlegenden Beziehungen, die im Allgemeinen gelten, unabhängig davon, welche spezielle Form der tatsächliche Fall annehmen mag.

Es ist ein Beweis für diese Allgemeingültigkeit, zu der die Theorie einen wichtigen Beitrag leistet, und in der Tat ist sie in Wirklichkeit die grundlegende Theorie der Kryptographie, die natürlich eine Form der Kodierung ist. In ähnlicher Weise trägt die Theorie zum Problem der Übersetzung von einer Sprache in eine andere bei, obwohl die gesamte Geschichte hier eindeutig eine Betrachtung sowohl der Bedeutung als auch der Information erfordert. In ähnlicher Weise sind die in dieser Arbeit entwickelten Ideen so eng mit dem Problem des logischen Designs großer Computer verbunden, dass es nicht überrascht, dass Shannon gerade eine Arbeit über das Design eines Computers geschrieben hat, der in der Lage wäre, eine geschickte Schachpartie zu spielen.

== 14 ==

Und es ist von weiterer direkter Relevanz für die vorliegende Behauptung, dass dieses Papier mit der Bemerkung schließt, dass man entweder sagen muss, dass ein solcher Computer "denkt", oder man muss die konventionelle Implikation des Verbs "denken" wesentlich modifizieren.

Als zweiter Punkt scheint es klar, dass die Formalisierung, auf der die vorliegende Theorie beruht, einen wichtigen Beitrag zu jeder möglichen allgemeinen Theorie der Kommunikation geleistet hat. Es scheint zunächst naheliegend, ein Kommunikationssystem so zu skizzieren, wie es am Anfang dieser Theorie gemacht wird; aber diese Gliederung der Situation muss sehr zutiefst sinnvoll und angemessen sein, wie man überzeugt wird, wenn man sieht, wie reibungslos und allgemein diese Sichtweise zu zentralen Fragen führt. Es ist so gut wie sicher, dass eine Betrachtung der Kommunikation auf den Ebenen B und C Ergänzungen zum schematischen Schema auf Seite 4 erfordert, aber es scheint ebenso wahrscheinlich, dass es sich dabei um geringfügige Ergänzungen und keine wirkliche Revision handelt.

Wenn man also zu den Ebenen B und C übergeht, kann es sich als wesentlich erweisen, die statistischen Merkmale des Reiseziels zu berücksichtigen. Man kann sich als Zusatz zum Diagramm ein weiteres Kästchen mit der Bezeichnung "Semantischer Empfänger" vorstellen, das zwischen dem technischen Empfänger (der Signale in Nachrichten umwandelt) und dem Zielort eingefügt wird. Dieser semantische Empfänger unterzieht die Nachricht einer zweiten Dekodierung, wobei die Anforderung an diese zweite Dekodierung darin besteht, dass sie die statistischen semantischen Merkmale der Nachricht mit den statistischen semantischen Kapazitäten der Gesamtheit der Empfänger oder der Untergruppe von Empfängern, die das Publikum bilden, das man beeinflussen möchte, in Übereinstimmung bringen muss.

In ähnlicher Weise kann man sich ein weiteres Kästchen im Diagramm vorstellen, das, zwischen Informationsquelle und Sender eingefügt, mit "semantischem Rauschen" beschriftet wäre, wobei das Kästchen, das vorher nur mit "Rauschen" beschriftet war, jetzt mit "technischem Rauschen" beschriftet wäre. Von dieser Quelle werden dem Signal die Störungen oder Bedeutungsverzerrungen auferlegt, die von der Quelle nicht beabsichtigt sind, die sich aber unausweichlich auf das Ziel auswirken. Und das Problem der semantischen Dekodierung muss dieses semantische Rauschen berücksichtigen. Es ist auch möglich, sich eine Anpassung der ursprünglichen Nachricht vorzustellen, so dass die Summe aus Nachrichtenbedeutung plus semantischem Rauschen gleich der gewünschten Gesamt-Bedeutung der Nachricht am Zielort ist.

Drittens scheint es für das Problem auf allen Ebenen sehr suggestiv zu sein, dass Fehler und Verwirrung entstehen und die Klangtreue abnimmt, wenn man, egal wie gut die Kodierung ist, versucht, zu viel über einen Kanal (d.h. H > C ) zu drängen. Auch hier wird eine allgemeine Theorie auf allen Ebenen sicherlich nicht nur die Kapazität des Senders, sondern auch (sogar die Worte stimmen!) die Kapazität des Publikums berücksichtigen müssen. Wenn man versucht, die Kapazität des Publikums zu überfordern, ist es wahrscheinlich richtig, dass man in direkter Analogie sozusagen das Publikum nicht ausfüllt und dann nur den Rest durch Verschütten verschwendet. Wahrscheinlicher, und wiederum in direkter Analogie, wenn man die Kapazität des Publikums überfrachtet, erzwingt man einen allgemeinen und unausweichlichen Fehler und Verwirrung.

Viertens ist es schwer zu glauben, dass die Ebenen B und C nicht viel zu lernen haben und nicht den Ansatz für ihre Probleme haben, der sich sinnvoll an der Entwicklung der entropischen Ideen in dieser Theorie in Bezug auf den Begriff der Information orientiert.

Der in dieser Theorie entwickelte Begriff der Information erscheint zunächst enttäuschend und bizarr - enttäuschend, weil er nichts mit Bedeutung zu tun hat, und bizarr, weil er sich nicht mit einer einzelnen Botschaft befasst, sondern mit dem statistischen Charakter eines ganzen Ensembles von Botschaften, bizarr auch, weil sich in diesen statistischen Begriffen die beiden Wörter Information und Unsicherheit als Partner finden.

Ich denke aber, dass es sich dabei nur um vorübergehende Reaktionen handeln sollte; und dass man am Ende sagen sollte, dass diese Analyse so eindringlich reinen Tisch gemacht hat, dass man jetzt, vielleicht zum ersten Mal, bereit ist für eine wirkliche Bedeutungstheorie. Eine technische Kommunikationstheorie ist wie ein sehr ordentliches und diskretes Mädchen, das Ihr Telegramm annimmt. Sie achtet nicht auf die Bedeutung, ob sie traurig, freudig oder peinlich ist. Aber sie muss darauf vorbereitet sein, mit allem fertig zu werden, was an ihren Schreibtisch kommt. Diese Vorstellung, dass ein Kommunikationssystem versuchen sollte, mit allen möglichen Botschaften umzugehen, und dass der intelligente Weg, dies zu versuchen, darin besteht, die Gestaltung auf den statistischen Charakter der Quelle zu stützen, ist sicherlich nicht ohne Bedeutung für die Kommunikation im Allgemeinen. Die Sprache muss mit Blick auf die Gesamtheit der Dinge entworfen (oder entwickelt) werden, die der Mensch vielleicht sagen möchte; da sie aber nicht alles leisten kann, sollte auch sie so gut wie möglich und so oft wie möglich funktionieren. Das heißt, auch sie sollte ihre Aufgabe statistisch angehen.

== 15 ==

Das Konzept der mit einer Quelle in Verbindung zu bringenden Information führt, wie wir gesehen haben, direkt zu einer Studie über die statistische Struktur der Sprache; und diese Studie zeigt am Beispiel der englischen Sprache Informationen auf, die für Studenten jeder Sprach- und Kommunikationsphase sicherlich von Bedeutung sind. Die Idee, die mächtige Theorie der Markoffschen Prozesse zu nutzen, scheint für semantische Studien besonders vielversprechend zu sein, da diese Theorie speziell auf einen der wichtigsten, aber schwierigsten Aspekte der Bedeutung, nämlich den Einfluss des Kontextes, abgestimmt ist. Man hat das vage Gefühl, dass Information und Bedeutung sich in der Quantentheorie als so etwas wie ein Paar kanonisch konjugierter Variablen erweisen könnten, die einer gemeinsamen Beschränkung unterliegen, die eine Person dazu verurteilt, das eine zu opfern, während sie darauf besteht, viel vom anderen zu haben.

Oder vielleicht kann sich die Bedeutung als analog zu einer der Größen erweisen, von denen die Entropie eines thermodynamischen Ensembles abhängt. Das Auftreten der Entropie in der Theorie ist, wie bereits erwähnt, sicherlich höchst interessant und bedeutsam. Eddington wurde in diesem Zusammenhang bereits zitiert, aber es gibt eine weitere Passage in "The Nature of the Physical World", die besonders treffend und suggestiv erscheint:

Angenommen, wir würden gebeten, das Folgende in zwei Kategorien zu ordnen - Abstand, Masse, elektrische Kraft, Entropie, Schönheit, Melodie.

Ich denke, es gibt die stärksten Gründe, die Entropie neben Schönheit und Melodie zu stellen, und nicht bei den ersten drei. Entropie findet sich nur, wenn die Teile in Verbindung betrachtet werden, und erst wenn man die Teile in Verbindung betrachtet oder hört, erkennt man Schönheit und Melodie. Alle drei sind Merkmale eines Arrangements. Es ist ein schwangerer Gedanke, dass einer dieser drei Mitarbeiter in der Lage sein sollte, sich als eine alltägliche Größe der Wissenschaft darzustellen. Der Grund, warum sich dieser Fremde unter den Ureinwohnern der physischen Welt ausgeben kann, ist, dass er deren Sprache, nämlich die Sprache der Arithmetik, beherrscht.

Ich bin sicher, dass Eddington bereit gewesen wäre, das Wort Bedeutung zusammen mit Schönheit und Melodie aufzunehmen; und ich vermute, er wäre begeistert gewesen, in dieser Theorie zu sehen, dass die Entropie nicht nur die Ängste der Arithmetik, sondern auch die Sprache der Sprache spricht.

== 16 ==

bild