Ich kann Ihnen keine Grafiken liefern, aber vielleicht kann ich eine klare Erklärung geben.
Nehmen wir an, wir haben einen Informationskanal, z. B. eine Lampe, die einmal am Tag entweder rot oder grün blinkt. Wie viele Informationen werden dadurch übermittelt? Die erste Schätzung könnte ein Bit pro Tag sein. Was aber, wenn wir Blau hinzufügen, so dass der Sender drei Möglichkeiten hat? Wir möchten ein Informationsmaß haben, das nicht nur mit Zweierpotenzen umgehen kann, sondern immer noch additiv ist (so wie die Multiplikation der Anzahl der möglichen Nachrichten mit zwei fügt hinzu. ein Bit). Wir könnten dies tun, indem wir log 2 (Anzahl der möglichen Nachrichten), aber es stellt sich heraus, dass es einen allgemeineren Weg gibt.
Angenommen, wir sind wieder bei Rot/Grün, aber die rote Glühbirne ist durchgebrannt (das ist allgemein bekannt), so dass die Lampe immer grün blinken muss. Der Kanal ist nun nutzlos, wir wissen, was der nächste Blitz sein wird Die Blitze vermitteln also keine Informationen, keine Nachrichten. Jetzt reparieren wir die Glühbirne, legen aber eine Regel fest, dass die rote Glühbirne nicht zweimal hintereinander blinken darf. Wenn die Lampe rot blinkt, wissen wir, was das nächste Blinken sein wird. Wenn Sie versuchen, einen Bitstrom über diesen Kanal zu senden, werden Sie feststellen, dass Sie ihn mit mehr Blitzen kodieren müssen, als Sie Bits haben (50 % mehr, um genau zu sein). Und wenn Sie eine Folge von Blitzen beschreiben wollen, können Sie dies mit weniger Bits tun. Das Gleiche gilt, wenn jeder Blitz unabhängig ist (kontextfrei), aber grüne Blitze häufiger vorkommen als rote: Je schräger die Wahrscheinlichkeit ist, desto weniger Bits braucht man, um die Sequenz zu beschreiben, und desto weniger Informationen enthält sie, bis hin zur Grenze, dass alles grün ist und die Glühbirne durchbrennt.
Es hat sich herausgestellt, dass es eine Möglichkeit gibt, den Informationsgehalt eines Signals zu messen, und zwar auf der Grundlage der Wahrscheinlichkeiten der verschiedenen Symbole. Wenn die Wahrscheinlichkeit des Empfangs von Symbol x i ist p i dann betrachten Sie die Menge
\-log pi
Der kleinere p i desto größer ist dieser Wert. Wenn x i doppelt so unwahrscheinlich wird, erhöht sich dieser Wert um einen festen Betrag (log(2)). Dies soll Sie daran erinnern, wie man ein Bit zu einer Nachricht hinzufügt.
Wenn wir nicht wissen, was das Symbol sein wird (aber wir kennen die Wahrscheinlichkeiten), dann können wir den Durchschnitt dieses Wertes berechnen, wie viel wir bekommen werden, indem wir über die verschiedenen Möglichkeiten summieren:
I = -Σ pi log(pi)
Dies ist der Informationsgehalt auf einen Blick.
Red bulb burnt out: pred = 0, pgreen\=1, I = -(0 + 0) = 0
Red and green equiprobable: pred = 1/2, pgreen = 1/2, I = -(2 \* 1/2 \* log(1/2)) = log(2)
Three colors, equiprobable: pi\=1/3, I = -(3 \* 1/3 \* log(1/3)) = log(3)
Green and red, green twice as likely: pred\=1/3, pgreen\=2/3, I = -(1/3 log(1/3) + 2/3 log(2/3)) = log(3) - 2/3 log(2)
Dies ist der Informationsgehalt bzw. die Entropie der Nachricht. Sie ist maximal, wenn die verschiedenen Symbole gleichwertig sind. Wenn Sie Physiker sind, verwenden Sie den natürlichen Logarithmus, wenn Sie Informatiker sind, verwenden Sie log 2 und erhalten Bits.