Wie wird Entropie in der Informationstheorie gemessen? Informationsentropie

1. Einführung.

2. Was hat Claude Shannon gemessen?

3. Grenzen der evolutionären Variabilität von Informationssystemen.

4. Begrenzte Anpassung biologischer Arten.

5. Entwicklungsstufen der Entropietheorie.

6. Methoden zur Berechnung der Strukturinformationsmenge und Informationsentropie von Texten.

7. Informations-Entropie-Verhältnisse von Anpassungs- und Entwicklungsprozessen.

8. Informationen und Energie.

9. Abschluss.

10. Referenzliste.

EINFÜHRUNG

In der zweiten Hälfte des 20. Jahrhunderts ereigneten sich zwei Ereignisse, die unserer Meinung nach die weiteren Wege der wissenschaftlichen Welterschließung maßgeblich bestimmen. Wir sprechen über die Entstehung der Informationstheorie und den Beginn der Erforschung der Mechanismen antientropischer Prozesse, für deren Untersuchung die Synergetik alle neuesten Errungenschaften der Nichtgleichgewichtsthermodynamik, der Informationstheorie und der allgemeinen Systemtheorie nutzt.

Der grundlegende Unterschied zwischen dieser Stufe der Entwicklung der Wissenschaft und den vorherigen Stufen besteht darin, dass die Wissenschaft vor der Schaffung der aufgeführten Forschungsgebiete nur die Mechanismen von Prozessen erklären konnte, die zu einer Zunahme des Chaos und einer Zunahme der Entropie führen. Die seit Lamarck und Darwin entwickelten biologischen und evolutionären Konzepte haben noch immer keine strenge wissenschaftliche Begründung und widersprechen dem zweiten Hauptsatz der Thermodynamik, nach dem die Zunahme der Entropie, die alle Prozesse auf der Welt begleitet, unabdingbar ist physikalisches Gesetz.

Das Verdienst der Nichtgleichgewichtsthermodynamik liegt darin, dass sie die Mechanismen von Antientropieprozessen aufdecken konnte, die dem Zweiten Hauptsatz der Thermodynamik nicht widersprechen, da eine lokale Entropieabnahme innerhalb eines selbstorganisierenden Systems immer bezahlt wird durch eine große Zunahme der absoluten Entropie Außenumgebung.

Der wichtigste Schritt zum Verständnis der Natur und Mechanismen antientropischer Prozesse ist die Einführung eines quantitativen Informationsmaßes. Anfangs war diese Maßnahme nur zur reinen Lösung gedacht angewandte Aufgaben Kommunikationstechnologie. Spätere Forschungen auf dem Gebiet der Physik und Biologie ermöglichten es jedoch, die von K. Shannon vorgeschlagenen universellen Maße zu identifizieren, die es ermöglichen, die Beziehung zwischen der Informationsmenge und der physikalischen Entropie herzustellen und letztendlich die Essenz einer neuen wissenschaftlichen Interpretation zu bestimmen des Begriffs "Information" als Maß für die strukturelle Ordnung unterschiedlichster Systeme .

Mit einer Metapher können wir sagen, dass sich vor der Einführung eines einzigen informativen quantitativen Maßes in die Wissenschaft die Welt, die in naturwissenschaftlichen Konzepten dargestellt wurde, sozusagen „auf zwei Wale stützte“: Energie und Materie. Der „dritte Wal“ ist heute Information, die an allen Prozessen beteiligt ist, die auf der Welt stattfinden, von Mikropartikeln, Atomen und Molekülen bis hin zum Funktionieren der komplexesten biologischen und sozialen Systeme.

Natürlich stellt sich die Frage: Bestätigen oder widerlegen die neuesten Daten der modernen Wissenschaft das evolutionäre Paradigma der Entstehung des Lebens und der biologischen Arten?

Um diese Frage zu beantworten, ist es zunächst notwendig zu verstehen, welche Eigenschaften und Aspekte des vielschichtigen Begriffs „Information“ das quantitative Maß widerspiegeln, das K. Shannon in die Wissenschaft eingeführt hat.

Die Verwendung des Maßes der Informationsmenge ermöglicht es, die allgemeinen Mechanismen der Informations-Entropie-Wechselwirkungen zu analysieren, die allen spontanen Prozessen der Informationsakkumulation in der umgebenden Welt zugrunde liegen, die zur Selbstorganisation der Systemstruktur führen.

Gleichzeitig ermöglicht die Informations-Entropie-Analyse auch, Lücken in evolutionären Konzepten zu identifizieren, die nichts anderes sind als unhaltbare Versuche, das Problem der Entstehung von Leben und biologischen Arten unberücksichtigt auf einfache Mechanismen der Selbstorganisation zu reduzieren die Tatsache, dass Systeme dieser Komplexität nur auf der Grundlage dieser Informationen erstellt werden können, die ursprünglich in dem ihrer Erstellung vorausgehenden Plan festgelegt wurden.

Gehaltenen moderne Wissenschaft Studien über die Eigenschaften von Informationssystemen geben allen Grund zu der Behauptung, dass alle Systeme nur nach den Regeln gebildet werden können, die von den oberen Hierarchiestufen absteigen, und diese Regeln selbst existierten vor den Systemen selbst in Form des ursprünglichen Plans (Idee von Schöpfung).

WAS HAT CLAUD SHANNON GEMESSEN?

Die Informationstheorie basiert auf der von K. Shannon vorgeschlagenen Methode zur Berechnung der Menge an neuen (unvorhersehbaren) und redundanten (vorhersehbaren) Informationen, die in Nachrichten enthalten sind, die über technische Kommunikationskanäle übertragen werden.

Die von Shannon vorgeschlagene Methode zur Messung der Informationsmenge erwies sich als so universell, dass ihre Anwendung nicht mehr auf die engen Grenzen rein technischer Anwendungen beschränkt ist.

Entgegen der Meinung von K. Shannon selbst, der die Wissenschaftler vor einer vorschnellen Verbreitung der von ihm vorgeschlagenen Methode über die Grenzen angewandter Probleme der Kommunikationstechnologie hinaus warnte, fand diese Methode immer mehr Verbreitung in Studien der physikalischen, biologischen und soziale Systeme.

Der Schlüssel zu einem neuen Verständnis des Wesens des Informationsphänomens und des Mechanismus von Informationsprozessen war die von L. Brillouin etablierte Beziehung zwischen Information und physikalischer Entropie. Diese Beziehung wurde ursprünglich in die Grundlage der Informationstheorie gelegt, da Shannon vorschlug, eine wahrscheinliche Entropiefunktion zu verwenden, die der statistischen Thermodynamik entlehnt ist, um die Informationsmenge zu berechnen.

Viele Wissenschaftler (beginnend mit K. Shannon selbst) neigten dazu, solches Ausleihen als rein formales Mittel zu betrachten. L. Brillouin zeigte, dass zwischen der nach Shannon berechneten Informationsmenge und der physikalischen Entropie kein formaler, sondern ein sinnvoller Zusammenhang besteht.

In der statistischen Physik werden unter Verwendung der Wahrscheinlichkeitsfunktion der Entropie Prozesse untersucht, die zu einem thermodynamischen Gleichgewicht führen, in dem sich alle Zustände von Molekülen (ihre Energien, Geschwindigkeiten) gleichwahrscheinlich annähern und die Entropie zu einem Maximalwert tendiert.

Dank der Informationstheorie wurde offensichtlich, dass es mit Hilfe derselben Funktion möglich ist, Systeme zu untersuchen, die weit vom Zustand maximaler Entropie entfernt sind, wie beispielsweise ein geschriebener Text.

Eine weitere wichtige Schlussfolgerung ist die

Mit Hilfe der Wahrscheinlichkeitsfunktion der Entropie kann man alle Stadien des Übergangs des Systems vom Zustand des vollständigen Chaos analysieren, was entspricht gleiche Werte Wahrscheinlichkeiten und dem Maximalwert der Entropie bis zum Zustand der letzten Ordnung (starre Bestimmung), der dem einzig möglichen Zustand seiner Elemente entspricht.

Diese Schlussfolgerung gilt gleichermaßen für so unterschiedliche Systeme in der Natur wie Gase, Kristalle, geschriebene Texte, biologische Organismen oder Lebensgemeinschaften usw.

Wenn gleichzeitig für ein Gas oder einen Kristall bei der Berechnung der Entropie nur der Mikrozustand (d. h. der Zustand von Atomen und Molekülen) und der Makrozustand dieser Systeme (d. h. Gas oder Kristall als Ganzes) verglichen werden, dann für Systeme anderer Art (biologisch, intellektuell, sozial) kann die Entropie auf der einen oder anderen willkürlich gewählten Ebene berechnet werden. In diesem Fall hängen der berechnete Wert der Entropie des betrachteten Systems und die Informationsmenge, die den Ordnungsgrad dieses Systems charakterisiert und gleich der Differenz zwischen dem maximalen und dem tatsächlichen Entropiewert ist, von der Wahrscheinlichkeitsverteilung der Zustände ab der Elemente der darunter liegenden Ebene, d.h. die Elemente, die zusammen diese Systeme bilden.

Mit anderen Worten,

Die in der Struktur des Systems gespeicherte Informationsmenge ist aufgrund der in der Struktur des Systems erhaltenen Ordnung proportional zum Grad der Abweichung des Systems vom Gleichgewichtszustand.

Ohne es zu ahnen, bewaffnete Shannon die Wissenschaft mit einem universellen Maß, das im Prinzip geeignet ist (vorausgesetzt, die Werte aller Wahrscheinlichkeiten werden offenbart), um den Grad der Ordnung aller auf der Welt existierenden Systeme zu beurteilen.

Nachdem das von Shannon eingeführte Informationsmaß definiert wurde als ein Maß für die Bewegungsordnung, ist es möglich, den Zusammenhang zwischen Information und Energie herzustellen, wenn man bedenkt Energie ist ein Maß für die Verkehrsintensität. Gleichzeitig ist die in der Systemstruktur gespeicherte Informationsmenge proportional zur Gesamtenergie der internen Verbindungen dieser Systeme.

Gleichzeitig mit der Entdeckung gemeinsame Eigenschaften Information als Phänomen gibt es auch grundlegende Unterschiede in Bezug auf unterschiedliche Komplexitätsgrade von Informationssystemen.

So haben beispielsweise alle physischen Objekte im Gegensatz zu biologischen keine speziellen Gedächtnisorgane, die von der Außenwelt kommende Signale umcodieren und Informationskommunikationskanäle. Die darin gespeicherten Informationen sind in ihrer gesamten Struktur sozusagen „verschmiert“. Wenn Kristalle jedoch nicht in der Lage wären, Informationen in den internen Verbindungen zu speichern, die ihre Ordnung bestimmen, wäre es nicht möglich, künstliche Gedächtnisse und technische Geräte zur Informationsverarbeitung auf der Grundlage kristalliner Strukturen zu schaffen.

Gleichzeitig muss berücksichtigt werden, dass die Erstellung solcher Geräte nur dank des Geistes einer Person möglich wurde, die die elementaren Informationseigenschaften von Kristallen zum Aufbau komplexer Informationssysteme nutzen konnte.

Protozoen biologisches Systemübertrifft in seiner Komplexität die fortschrittlichsten von Menschen geschaffenen Informationssysteme. Bereits auf der Ebene der einfachsten einzelligen Organismen wird der komplexeste informationsgenetische Mechanismus aktiviert, der für ihre Reproduktion erforderlich ist. In mehrzelligen Organismen zusätzlich zu Informationssystem Vererbung gibt es spezialisierte Organe, um Informationen zu speichern und zu verarbeiten (z. B. Systeme, die von der Außenwelt kommende visuelle und akustische Signale umcodieren, bevor sie sie an das Gehirn senden, Systeme zur Verarbeitung dieser Signale im Gehirn). Das komplexeste Netzwerk der Informationskommunikation ( Nervensystem) durchdringt und verwandelt den gesamten vielzelligen Organismus in ein Ganzes.

Information und Entropie

Bei der Diskussion des Informationskonzepts ist es unmöglich, ein anderes verwandtes Konzept nicht zu berühren - die Entropie. Zum ersten Mal wurden die Begriffe Entropie und Information von K. Shannon miteinander verbunden.

Claude Elwood Shannon ( Claude Elwood Shannon), 1916-2001 - ein entfernter Verwandter von Thomas Edison, einem amerikanischen Ingenieur und Mathematiker, war von 1941 bis 1972 Mitarbeiter der Bell Laboratories. In seiner Arbeit "Mathematical Theory of Communication" (http://cm.bell-labs. com/cm/ms /what/shannonday/), veröffentlicht 1948, war der erste, der das Maß des Informationsgehalts einer Nachricht und das Konzept eines Informationsquantums – ein Bit – festlegte. Diese Ideen bildeten die Grundlage der Theorie der modernen digitalen Kommunikation. Shannons anderes Werk "Communication Theory of Secrecy Systems", veröffentlicht 1949, trug zur Transformation der Kryptografie bei wissenschaftliche Disziplin. Er ist der Gründer Informationstheorie, das in modernen High-Tech-Kommunikationssystemen Anwendung gefunden hat. Shannon leistete einen großen Beitrag zur Theorie der Wahrscheinlichkeitsschemata, der Automatentheorie und der Theorie der Kontrollsysteme – Wissenschaften, die durch das Konzept der „Kybernetik“ vereint werden.

Physikalische Definition der Entropie

Der Begriff der Entropie wurde erstmals 1865 von Clausius als Funktion des thermodynamischen Zustands des Systems eingeführt

wo Q Wärme ist, T ist Temperatur.

Die physikalische Bedeutung der Entropie manifestiert sich als Teil der inneren Energie des Systems, die nicht in Arbeit umgewandelt werden kann. Clausius hat diese Funktion empirisch durch Experimente mit Gasen erhalten.

L. Boltzmann (1872) nach Methoden Statistische Physik leitete einen theoretischen Ausdruck für die Entropie ab

wobei K eine Konstante ist; W ist die thermodynamische Wahrscheinlichkeit (die Anzahl der Permutationen idealer Gasmoleküle, die den Makrozustand des Systems nicht beeinflussen).

Die Boltzmann-Entropie wurde für ein ideales Gas abgeleitet und wird als Maß für die Unordnung, als Maß für das Chaos eines Systems behandelt. Für ein ideales Gas sind die Entropien von Boltzmann und Clausius identisch. Boltzmanns Formel wurde so berühmt, dass sie als Epitaph auf seinem Grab eingraviert ist. Es gibt eine Meinung, dass Entropie und Chaos ein und dasselbe sind. Obwohl Entropie nur beschreibt ideale Gase, wurde es unkritisch verwendet, um komplexere Objekte zu beschreiben.

Boltzmann selbst im Jahr 1886. versuchte, Entropie zu verwenden, um zu erklären, was Leben ist. Leben ist nach Boltzmann ein Phänomen, das in der Lage ist, seine Entropie zu reduzieren. Laut Boltzmann und seinen Anhängern verändern sich alle Prozesse im Universum in Richtung Chaos. Das Universum steuert auf den Hitzetod zu. Diese düstere Prognose beherrschte lange Zeit die Wissenschaft. Die Vertiefung des Wissens über die umgebende Welt brachte dieses Dogma jedoch allmählich ins Wanken.

Die Klassiker verbanden Entropie nicht mit Information.

Entropie als Informationsmaß

Beachten Sie, dass der Begriff "Information" oft als "Information" interpretiert wird und die Informationsübertragung mit Hilfe von Kommunikation erfolgt. K. Shannon betrachtete die Entropie als Maß nützliche Informationen in den Prozessen der Signalübertragung über Drähte.

Um die Entropie zu berechnen, schlug Shannon eine Gleichung vor, die dem klassischen Ausdruck für Entropie ähnelt, der von Boltzmann gefunden wurde. Wir betrachten ein unabhängiges zufälliges Ereignis X mit N möglichen Zuständen und p i -Wahrscheinlichkeit des i-ten Zustands. Dann die Entropie des Ereignisses X

Diese Größe wird auch mittlere Entropie genannt. Beispielsweise können wir von der Übertragung einer Nachricht in natürlicher Sprache sprechen. Bei der Übermittlung verschiedener Briefe übermitteln wir eine unterschiedliche Menge an Informationen. Die Informationsmenge pro Buchstabe hängt von der Häufigkeit ab, mit der dieser Buchstabe in allen in der Sprache gebildeten Nachrichten verwendet wird. Je seltener der von uns übermittelte Brief ist, desto mehr Informationen enthält er.

Wert

H ich = P ich log 2 1/P ich = -P ich log 2 P ich ,

heißt private Entropie, die nur den i-ten Zustand charakterisiert.

Lassen Sie es uns anhand von Beispielen erklären. Beim Werfen einer Münze fallen Kopf oder Zahl heraus, das ist eine sichere Information über das Ergebnis des Wurfs.

Für eine Münze ist die Anzahl der gleichwahrscheinlichen Möglichkeiten N = 2. Die Wahrscheinlichkeit, Kopf (Zahl) zu bekommen, ist 1/2.

Beim Werfen eines Würfels erhalten wir Informationen über den Verlust einer bestimmten Anzahl von Punkten (z. B. drei). Wann bekommen wir weitere Informationen?

Für den Würfel ist die Anzahl der gleichwahrscheinlichen Möglichkeiten N = 6. Die Wahrscheinlichkeit, drei Punkte des Würfels zu bekommen, ist 1/6. Die Entropie beträgt 2,58. Die Implementierung eines weniger wahrscheinlichen Ereignisses liefert mehr Informationen. Je größer die Ungewissheit vor Erhalt einer Nachricht über ein Ereignis (Münzwurf, Würfel), desto mehr Informationen kommen beim Empfang der Nachricht.

Dieser Ansatz zum quantitativen Ausdruck von Informationen ist alles andere als universell, da die verwendeten Einheiten so wichtige Eigenschaften von Informationen wie ihren Wert und ihre Bedeutung nicht berücksichtigen. Die Abstraktion von den spezifischen Eigenschaften von Informationen (ihre Bedeutung, ihr Wert) über reale Objekte, wie sich später herausstellte, ermöglichte die Identifizierung allgemeine Muster Information. Die von Shannon vorgeschlagenen Einheiten (Bits) zur Messung der Informationsmenge eignen sich zur Auswertung beliebiger Nachrichten (Geburt eines Sohnes, Ergebnisse eines Sportmatches etc.). Anschließend wurde versucht, solche Maße für die Informationsmenge zu finden, die deren Wert und Bedeutung berücksichtigen würden. Die Universalität ging jedoch sofort verloren: Für verschiedene Prozesse sind die Kriterien von Wert und Bedeutung unterschiedlich. Darüber hinaus sind Definitionen der Bedeutung und des Werts von Informationen subjektiv, während die von Shannon vorgeschlagene Informationsmessung objektiv ist. Zum Beispiel enthält der Geruch eine riesige Menge an Informationen für das Tier, ist aber für den Menschen schwer fassbar. Das menschliche Ohr nimmt keine Ultraschallsignale wahr, aber sie tragen viele Informationen für einen Delphin usw. Daher ist das von Shannon vorgeschlagene Informationsmaß geeignet, um alle Arten von Informationsprozessen zu untersuchen, unabhängig vom "Geschmack" der Informationen Verbraucher.

Messinformationen

Aus dem Physikunterricht wissen Sie das, bevor Sie den Wert von irgendetwas messen physikalische Größe, geben Sie die Maßeinheit ein. Information hat auch eine solche Einheit - ein bisschen, aber ihre Bedeutung ist für verschiedene Ansätze zur Definition des Begriffs "Information" unterschiedlich.

Es gibt mehrere unterschiedliche Herangehensweisen an das Problem der Informationsmessung.

„Information ist eine Form des Lebens“, schrieb der amerikanische Dichter und Essayist John Perry Barlow. Tatsächlich begegnet uns ständig das Wort „Informationen“ – es wird empfangen, übermittelt und gespeichert. Informieren Sie sich über die Wettervorhersage oder das Ergebnis eines Fußballspiels, den Inhalt eines Films oder Buches, telefonieren Sie – es ist immer klar, um welche Informationen es sich handelt. Aber was sind die Informationen selbst und vor allem - wie sie gemessen werden können, denkt normalerweise niemand. Mittlerweile sind Informationen und Wege ihrer Übermittlung eine wichtige Sache, die unser Leben weitgehend bestimmt, zu einem festen Bestandteil davon geworden sind Informationstechnologie. Der wissenschaftliche Redakteur von Laba.Media Vladimir Gubailovsky erklärt, was Information ist, wie man sie misst und warum es am schwierigsten ist, Informationen unverzerrt zu übertragen.

Der Raum zufälliger Ereignisse

1946 schlug der amerikanische Statistiker John Tukey den Namen BIT (BIT, BInary digiT - "binary number" - "Hi-tech") vor - eines der Hauptkonzepte des 20. Jahrhunderts. Tukey wählte ein Bit, um eine einzelne Binärziffer zu bezeichnen, die den Wert 0 oder 1 annehmen kann. Claude Shannon schlug in seinem Grundsatzpapier „The Mathematical Theory of Communication“ vor, die Informationsmenge in Bits zu messen. Aber dies ist nicht das einzige Konzept, das Shannon in seinem Aufsatz eingeführt und untersucht hat.

Stellen Sie sich einen Raum zufälliger Ereignisse vor, der aus dem Werfen einer einzelnen gefälschten Münze mit Köpfen auf beiden Seiten besteht. Wann fällt der Adler? Das ist immer klar. Wir wissen das im Voraus, denn so ist unser Raum eingerichtet. Köpfe zu bekommen ist ein bestimmtes Ereignis, das heißt, seine Wahrscheinlichkeit ist 1. Wie viele Informationen werden wir berichten, wenn wir über die gefallenen Köpfe sprechen? Nein. Wir betrachten die Informationsmenge in einer solchen Nachricht als 0.

Lassen Sie uns nun die richtige Münze werfen: Sie hat auf der einen Seite Kopf und auf der anderen Seite Zahl, wie es sein sollte. Kopf oder Zahl zu bekommen, sind zwei verschiedene Ereignisse, die unseren Raum zufälliger Ereignisse ausmachen. Wenn wir das Ergebnis eines Wurfs melden, dann handelt es sich in der Tat um neue Informationen. Bei Kopf melden wir 0 und bei Zahl 1. Um diese Informationen zu melden, benötigen wir nur 1 Bit.

Was hat sich geändert? Unsicherheit ist in unserem Veranstaltungsraum aufgetreten. Wir haben jemandem etwas darüber zu erzählen, der selbst keine Münze wirft und das Ergebnis des Wurfs nicht sieht. Aber um unsere Nachricht richtig zu verstehen, muss es genau wissen, was wir tun, was 0 und 1 bedeuten.Unsere Ereignisräume müssen übereinstimmen, und der Decodierungsprozess muss das Ergebnis des Wurfs eindeutig wiederherstellen. Passt der Ereignisraum von Senden und Empfangen nicht zusammen oder besteht keine Möglichkeit der eindeutigen Dekodierung der Nachricht, bleibt die Information nur noch Rauschen im Kommunikationskanal.

Wenn zwei Münzen unabhängig voneinander und gleichzeitig geworfen werden, gibt es vier gleichwahrscheinliche Ergebnisse: Kopf-Kopf, Kopf-Zahl, Zahl-Kopf und Zahl-Zahl. Um Informationen zu übertragen, benötigen wir bereits 2 Bits, und unsere Nachrichten lauten wie folgt: 00, 01, 10 und 11. Die Informationen sind doppelt so groß geworden. Dies geschah, weil die Unsicherheit zunahm. Wenn wir versuchen, das Ergebnis eines solchen Doppelwurfs zu erraten, ist die Wahrscheinlichkeit, dass wir einen Fehler machen, doppelt so hoch.

Je größer die Unsicherheit des Ereignisraums ist, desto mehr Informationen enthält die Nachricht über seinen Zustand.

Lassen Sie uns unseren Veranstaltungsraum etwas komplizieren. Bisher waren alle Ereignisse, die passiert sind, gleich wahrscheinlich. Aber in realen Räumen haben nicht alle Ereignisse die gleiche Wahrscheinlichkeit. Nehmen wir an, die Wahrscheinlichkeit, dass die Krähe, die wir sehen, schwarz ist, liegt nahe bei 1. Die Wahrscheinlichkeit, dass der erste Passant, den wir auf der Straße treffen, ein Mann ist, beträgt etwa 0,5. Aber einem Krokodil auf den Straßen Moskaus zu begegnen, ist fast unglaublich. Intuitiv verstehen wir, dass eine Nachricht über ein Treffen mit einem Krokodil einen viel größeren Informationswert hat als über eine schwarze Krähe. Je geringer die Wahrscheinlichkeit eines Ereignisses ist, desto mehr Informationen enthält die Nachricht über ein solches Ereignis.

Lassen Sie den Raum der Ereignisse nicht so exotisch sein. Wir stehen einfach am Fenster und schauen auf die vorbeifahrenden Autos. Vierfarbige Autos fahren vorbei, was wir melden müssen. Dazu codieren wir die Farben: Schwarz – 00, Weiß – 01, Rot – 10, Blau – 11. Um zu melden, welches Auto vorbeigefahren ist, müssen wir nur 2 Informationsbits übertragen.

Aber wenn wir die Autos ziemlich lange beobachten, stellen wir fest, dass die Farbe der Autos ungleichmäßig verteilt ist: Schwarz - 50% (jede Sekunde), Weiß - 25% (jede vierte), Rot und Blau - jeweils 12,5% ( jeder achte). Dann können Sie die übermittelten Informationen optimieren.

Die meisten Autos sind schwarz, also nennen wir schwarz – 0 – den kürzesten Code und lassen den Code aller anderen bei 1 beginnen. Von der verbleibenden Hälfte weiß – 10, und die restlichen Farben beginnen bei 11. Lassen Sie uns schließlich Rufen Sie Rot - 110 und Blau - 111 an.

Wenn wir jetzt Informationen über die Farbe von Autos weitergeben, können wir sie dichter codieren.

Entropie nach Shannon

Lassen Sie unseren Veranstaltungsraum aus n verschiedenen Veranstaltungen bestehen. Beim Werfen einer Münze mit zwei Köpfen gibt es genau ein solches Ereignis, beim Werfen einer richtigen Münze - 2, beim Werfen von zwei Münzen oder beim Beobachten von Autos - 4. Jedes Ereignis entspricht der Wahrscheinlichkeit seines Auftretens. Wenn eine Münze mit zwei Köpfen geworfen wird, gibt es nur ein Ereignis (Kopf) und seine Wahrscheinlichkeit ist p1 = 1. Wenn eine richtige Münze geworfen wird, gibt es zwei Ereignisse, sie sind gleich wahrscheinlich und die Wahrscheinlichkeit für jedes ist 0,5: p1 = 0,5, p2 = 0,5. Beim Werfen von zwei richtigen Münzen gibt es vier Ereignisse, alle sind gleich wahrscheinlich und die Wahrscheinlichkeit beträgt jeweils 0,25: p1 = 0,25, p2 = 0,25, p3 = 0,25, p4 = 0,25. Bei der Beobachtung von Autos gibt es vier Ereignisse mit unterschiedlichen Wahrscheinlichkeiten: Schwarz – 0,5, Weiß – 0,25, Rot – 0,125, Blau – 0,125: p1 = 0,5, p2 = 0,25, p3 = 0,125, p4 = 0,125.

Dies ist kein Zufall. Shannon wählte die Entropie (ein Maß für die Unsicherheit im Ereignisraum) so, dass drei Bedingungen erfüllt waren:

  • 1Die Entropie eines bestimmten Ereignisses mit einer Wahrscheinlichkeit von 1 ist 0.
  • Die Entropie zweier unabhängiger Ereignisse ist gleich der Summe der Entropien dieser Ereignisse.
  • Die Entropie ist maximal, wenn alle Ereignisse gleich wahrscheinlich sind.

All diese Anforderungen decken sich ziemlich gut mit unseren Vorstellungen von der Ungewissheit des Veranstaltungsraums. Wenn es nur ein Ereignis gibt (das erste Beispiel), gibt es keine Unsicherheit. Wenn die Ereignisse unabhängig voneinander sind – die Unsicherheit der Summe ist gleich der Summe der Unsicherheiten – addieren sie sich einfach (Beispiel mit dem Werfen von zwei Münzen). Und schließlich, wenn alle Ereignisse gleich wahrscheinlich sind, dann ist der Unsicherheitsgrad des Systems maximal. Wie beim Werfen von zwei Münzen sind alle vier Ereignisse gleich wahrscheinlich und die Entropie ist 2, was größer ist als bei Autos, wenn es auch vier Ereignisse gibt, aber sie haben unterschiedliche Wahrscheinlichkeiten - in diesem Fall die Entropie ist 1,75.

Der Wert von H spielt in der Informationstheorie eine zentrale Rolle als Maß für Informationsmenge, Auswahl und Unsicherheit.

Claude Shannon

Claude Elwood Shannon- Amerikanischer Ingenieur, Kryptoanalytiker und Mathematiker. Gilt als „Vater des Informationszeitalters“. Begründer der Informationstheorie, die in modernen Hightech-Kommunikationssystemen Anwendung gefunden hat. Er lieferte grundlegende Konzepte, Ideen und deren mathematische Formulierungen, die heute die Grundlage moderner Kommunikationstechnologien bilden.

1948 schlug er vor, das Wort „Bit“ zu verwenden, um sich auf die kleinste Informationseinheit zu beziehen. Er zeigte auch, dass die von ihm eingeführte Entropie einem Maß für die Unsicherheit der Informationen in der übertragenen Nachricht entspricht. Shannons Artikel „Mathematical Theory of Communication“ und „The Theory of Communication in Secret Systems“ gelten als grundlegend für die Informationstheorie und Kryptografie.

Während des Zweiten Weltkriegs entwickelte Shannon in den Bell Laboratories kryptografische Systeme, die ihm später dabei halfen, Methoden zur Fehlerkorrektur bei der Codierung zu entdecken.

Shannon leistete entscheidende Beiträge zur Theorie der Wahrscheinlichkeitsschemata, der Spieltheorie, der Automatentheorie und der Theorie von Kontrollsystemen - Wissenschaftsbereiche, die im Konzept der "Kybernetik" enthalten sind.

Kodierung

Sowohl die geworfenen Münzen als auch die vorbeifahrenden Autos sind nicht wie die Zahlen 0 und 1. Um die Ereignisse zu kommunizieren, die in den Räumen stattfinden, muss man einen Weg finden, diese Ereignisse zu beschreiben. Diese Beschreibung wird Codierung genannt.

Nachrichten können unbegrenzt verschlüsselt werden verschiedene Wege. Aber Shannon zeigte, dass der kürzeste Code in Bits nicht kleiner sein kann als die Entropie.

Deshalb ist die Entropie einer Nachricht ein Maß für die Information in einer Nachricht. Da in allen betrachteten Fällen die Anzahl der Bits in der Codierung gleich der Entropie ist, bedeutet dies, dass die Codierung optimal war. Kurz gesagt, es ist nicht mehr möglich, Nachrichten über Ereignisse in unseren Räumen zu verschlüsseln.

Bei optimaler Codierung kann kein einziges übertragenes Bit in der Nachricht verloren gehen oder verfälscht werden. Geht mindestens ein Bit verloren, wird die Information verfälscht. Aber nicht alle realen Kommunikationskanäle geben 100%ige Sicherheit, dass alle Bits der Nachricht unverfälscht beim Empfänger ankommen.

Um dieses Problem zu beseitigen, ist es notwendig, den Code nicht optimal, sondern redundant zu machen. Zum Beispiel, um mit der Nachricht ihre Prüfsumme zu übertragen – ein speziell berechneter Wert, der durch Umwandlung des Nachrichtencodes erhalten wird und der durch Neuberechnung beim Empfang der Nachricht überprüft werden kann. Stimmt die übertragene Prüfsumme mit der errechneten überein, ist die Wahrscheinlichkeit, dass die Übertragung fehlerfrei verlaufen ist, recht hoch. Und wenn die Prüfsumme nicht übereinstimmt, müssen Sie eine erneute Übertragung anfordern. So funktionieren heute die meisten Kommunikationskanäle, zum Beispiel bei der Übermittlung von Informationspaketen über das Internet.

Nachrichten in natürlicher Sprache

Betrachten Sie den Ereignisbereich, der aus Nachrichten in natürlicher Sprache besteht. Dies ist ein Sonderfall, aber einer der wichtigsten. Die Ereignisse hier sind die übertragenen Zeichen (Buchstaben eines festen Alphabets). Diese Zeichen kommen in der Sprache mit unterschiedlicher Wahrscheinlichkeit vor.

Das häufigste Symbol (d. h. dasjenige, das am häufigsten in allen auf Russisch verfassten Texten vorkommt) ist ein Leerzeichen: Unter tausend Zeichen kommt ein Leerzeichen durchschnittlich 175 Mal vor. Das zweithäufigste ist das Symbol „o“ - 90, gefolgt von anderen Vokalen: „e“ (oder „ё“ - wir werden sie nicht unterscheiden) - 72, „a“ - 62, „i“ - 62 und nur weiter kommt der erste Konsonant "t" 53 vor. Und das seltenste "f" - dieses Symbol kommt nur zweimal pro tausend Zeichen vor.

Wir verwenden das 31-Buchstaben-Alphabet der russischen Sprache (es unterscheidet nicht zwischen "e" und "e" sowie "b" und "b"). Wenn alle Buchstaben in der Sprache mit der gleichen Wahrscheinlichkeit gefunden würden, dann wäre die Entropie pro Zeichen H = 5 Bit, aber wenn wir die tatsächlichen Zeichenhäufigkeiten berücksichtigen, dann wird die Entropie geringer sein: H = 4,35 Bit. (Dies ist fast zweimal weniger als bei der herkömmlichen Codierung, wenn ein Zeichen als Byte übertragen wird - 8 Bit).

Aber die Entropie eines Zeichens in einer Sprache ist noch geringer. Die Wahrscheinlichkeit, dass das nächste Zeichen erscheint, wird nicht vollständig durch die durchschnittliche Häufigkeit des Zeichens in allen Texten bestimmt. Welches Zeichen folgt, hängt von den bereits übertragenen Zeichen ab. Zum Beispiel kann im modernen Russisch nach dem Symbol "ъ" das Symbol eines Konsonantentons nicht folgen. Nach zwei aufeinanderfolgenden Vokalen „e“ ist der dritte Vokal „e“ äußerst selten, außer im Wort „langer Hals“. Das heißt, das nächste Zeichen ist etwas vorbestimmt. Wenn wir eine solche Vorbestimmung des nächsten Symbols berücksichtigen, beträgt die Unsicherheit (d. h. Information) des nächsten Symbols sogar weniger als 4,35. Nach einigen Schätzungen ist das nächste Zeichen im Russischen zu mehr als 50% durch die Struktur der Sprache vorgegeben, dh bei optimaler Codierung können alle Informationen übertragen werden, indem die Hälfte der Buchstaben aus der Nachricht gelöscht wird.

Eine andere Sache ist, dass nicht jeder Buchstabe schmerzlos durchgestrichen werden kann. Ein hochfrequentes „o“ (und Vokale im Allgemeinen) lässt sich zum Beispiel leicht streichen, seltenes „f“ oder „e“ hingegen recht problematisch.

Die natürliche Sprache, in der wir miteinander kommunizieren, ist hochgradig redundant und daher zuverlässig, wenn wir etwas übersehen haben – keine Angst, die Informationen werden trotzdem übermittelt.

Aber bis Shannon ein gewisses Maß an Informationen einführte, konnten wir nicht verstehen, dass die Sprache redundant ist und inwieweit wir Nachrichten komprimieren können (und warum Textdateien vom Archivierer so gut komprimiert werden).

Natürliche Sprachredundanz

In dem Artikel „Darüber, wie wir Text schreiben“ (der Titel klingt genau so!) Ein Fragment von Ivan Turgenevs Roman „ Edles Nest“ und einer gewissen Transformation unterzogen: 34% der Buchstaben wurden aus dem Fragment gelöscht, aber nicht zufällig. Die ersten und letzten Buchstaben in Wörtern wurden belassen, nur Vokale wurden gelöscht und nicht alle. Ziel war es nicht nur, alle Informationen aus dem konvertierten Text wiederzugewinnen, sondern auch sicherzustellen, dass der Leser dieses Textes keine besonderen Schwierigkeiten durch Auslassungen von Buchstaben bekommt.

Warum ist es relativ einfach, diesen beschädigten Text zu lesen? Es enthält wirklich notwendige Informationen ganze Wörter wiederzufinden. Ein russischer Muttersprachler hat eine bestimmte Reihe von Ereignissen (Wörter und ganze Sätze), die er zur Erkennung verwendet. Darüber hinaus stehen dem Träger auch Standardsprachkonstrukte zur Verfügung, die ihm helfen, Informationen wiederzugewinnen. Zum Beispiel, "Sie ist glücklicher"- kann mit hoher Wahrscheinlichkeit gelesen werden als „Sie war sensibler“. Aber ein einziger Satz "Sie ist besser", sondern wird als wiederhergestellt "Sie war weißer". Da wir es in der alltäglichen Kommunikation mit Kanälen zu tun haben, auf denen es Rauschen und Interferenzen gibt, sind wir recht gut darin, Informationen wiederzugewinnen, aber nur die, die wir bereits im Voraus kennen. Zum Beispiel der Satz "Ihre Teufel sind nicht weit von angenehm, obwohl sie viel flackerten und verschmolzen" Liest sich gut bis auf das letzte Wort "splls" - "zusammengeführt". Dieses Wort ist nicht im modernen Lexikon. Bei schnelles Lesen Wort "spls" es liest sich eher wie „zusammengeklebt“, bei einem langsamen verblüfft es nur.

Signaldigitalisierung

Schall oder akustische Schwingungen sind eine Sinuskurve. Dies ist beispielsweise auf dem Sound-Editor-Bildschirm zu sehen. Um den Ton genau zu übertragen, benötigen Sie unendlich viele Werte - die gesamte Sinuskurve. Dies ist mit einem analogen Anschluss möglich. Er singt – man hört zu, der Kontakt wird nicht unterbrochen, solange das Lied dauert.

Bei der digitalen Kommunikation über einen Kanal können wir nur eine endliche Anzahl von Werten übertragen. Bedeutet dies, dass der Ton nicht genau übertragen werden kann? Es stellt sich heraus, nicht.

Unterschiedliche Töne werden unterschiedlich sinusförmig moduliert. Wir übertragen nur diskrete Werte (Frequenzen und Amplituden), und die Sinuskurve selbst muss nicht übertragen werden - sie kann vom Empfangsgerät erzeugt werden. Es erzeugt eine Sinuskurve, auf die eine Modulation angewendet wird, die aus den über den Kommunikationskanal übertragenen Werten erstellt wird. Es gibt genaue Prinzipien, welche diskreten Werte übertragen werden müssen, damit der Ton am Eingang des Kommunikationskanals mit dem Ton am Ausgang übereinstimmt, wobei diese Werte einer Standard-Sinuskurve überlagert werden (dies ist nur das Kotelnikov-Theorem ).

Satz von Kotelnikov (in der englischen Literatur - der Satz von Nyquist-Shannon, der Abtastsatz)- eine grundlegende Aussage auf dem Gebiet der digitalen Signalverarbeitung, die kontinuierliche und diskrete Signale in Beziehung setzt und besagt, dass "jede Funktion F (t), bestehend aus Frequenzen von 0 bis f1, kontinuierlich mit beliebiger Genauigkeit übertragen werden kann, indem Zahlen fortlaufend bis 1 /( 2*f1) Sekunden.

Rauschkorrigierende Codierung. Hamming-Codes

Wenn der verschlüsselte Text von Ivan Turgenev über einen unzuverlässigen Kanal übertragen wird, wenn auch mit einer gewissen Anzahl von Fehlern, wird ein vollständig aussagekräftiger Text erhalten. Aber wenn wir alles bis auf ein Bit übertragen müssen, bleibt das Problem ungelöst: Wir wissen nicht, welche Bits falsch sind, weil der Fehler zufällig ist. Auch die Prüfsumme wird nicht immer gespeichert.

Deshalb strebt man heute bei der Datenübertragung über Netzwerke nicht so sehr nach einer optimalen Codierung, bei der möglichst viele Informationen in den Kanal geschoben werden können, sondern nach einer solchen Codierung (offensichtlich redundant), bei der Fehler wiederhergestellt werden können – ungefähr , wie wir Wörter beim Lesen als Fragment von Ivan Turgenev wiederhergestellt haben.

Es gibt spezielle Fehlerkorrekturcodes, mit denen Sie Informationen nach einem Fehler wiederherstellen können. Einer davon ist der Hamming-Code. Nehmen wir an, unsere gesamte Sprache besteht aus drei Wörtern: 111000, 001110, 100011. Sowohl die Quelle der Nachricht als auch der Empfänger kennen diese Wörter. Und wir wissen, dass Fehler im Kommunikationskanal auftreten, aber bei der Übertragung eines Wortes wird nicht mehr als ein Bit der Information verfälscht.

Angenommen, wir übergeben zuerst das Wort 111000. Als Ergebnis von höchstens einem Fehler (Fehler, den wir hervorgehoben haben) kann es zu einem der folgenden Wörter werden:

1) 111000, 0 11000, 10 1000, 110 000, 1111 00, 11101 0, 111001 .

Wenn das Wort 001110 übertragen wird, kann jedes der Wörter erhalten werden:

2) 001110, 1 01110, 01 1110, 000 110, 0010 10, 00110 0, 001111 .

Schließlich können wir für 100011 erhalten:

3) 100011, 0 00011, 11 0011, 101 011, 1001 11, 10000 1, 100010 .

Beachten Sie, dass alle drei Listen paarweise disjunkt sind. Mit anderen Worten, wenn irgendein Wort aus Liste 1 am anderen Ende des Kommunikationskanals erscheint, weiß der Empfänger sicher, dass Wort 111000 an ihn übermittelt wurde, und wenn irgendein Wort aus Liste 2 erscheint, Wort 001110, und aus Liste 3, Wort 100011. Sagen Sie in diesem Fall, dass unser Code einen Fehler behoben hat.

Der Fix kam aufgrund von zwei Faktoren zustande. Erstens kennt der Empfänger das gesamte „Wörterbuch“, das heißt, der Ereignisraum des Empfängers der Nachricht ist derselbe wie der Raum des Absenders der Nachricht. Als der Code mit nur einem Fehler übertragen wurde, kam ein Wort heraus, das nicht im Wörterbuch stand.

Zweitens wurden die Wörter im Wörterbuch auf besondere Weise ausgewählt. Selbst wenn ein Fehler auftrat, konnte der Empfänger kein Wort mit einem anderen verwechseln. Wenn das Wörterbuch beispielsweise aus den Wörtern „Tochter“, „Punkt“, „Beule“ besteht und sich bei der Übertragung als „Vochka“ herausstellt, kann der Empfänger, der weiß, dass ein solches Wort nicht existiert, nicht korrigieren der Fehler - jedes der drei Wörter könnte sich als richtig herausstellen. Wenn das Wörterbuch „dot“, „daw“, „branch“ enthält und wir wissen, dass nicht mehr als ein Fehler erlaubt ist, dann ist „vochka“ offensichtlich ein „dot“ und kein „daw“. Bei fehlerkorrigierenden Codes werden Wörter so gewählt, dass sie auch nach einem Fehler „erkennbar“ sind. Der einzige Unterschied besteht darin, dass der Code "Alphabet" nur zwei Buchstaben enthält - Null und Eins.

Die Redundanz einer solchen Kodierung ist sehr groß, und die Anzahl der Wörter, die wir auf diese Weise übermitteln können, ist relativ gering. Schließlich müssen wir jedes Wort aus dem Wörterbuch ausschließen, das im Fehlerfall mit der gesamten Liste übereinstimmen kann, die den übertragenen Wörtern entspricht (z. B. können die Wörter „Tochter“ und „Punkt“ nicht im Wörterbuch sein). Aber die exakte Übermittlung der Nachricht ist so wichtig, dass viel Mühe auf das Studium fehlerkorrigierender Codes verwendet wird.

Sensation

Die Begriffe Entropie (oder Ungewissheit und Unvorhersehbarkeit) einer Nachricht und Redundanz (oder Prädestination und Vorhersagbarkeit) entsprechen ganz selbstverständlich unseren intuitiven Vorstellungen vom Maß der Information. Je unvorhersehbarer die Nachricht ist (je größer ihre Entropie, weil die Wahrscheinlichkeit geringer ist), desto mehr Informationen enthält sie. Eine Sensation (z. B. ein Treffen mit einem Krokodil auf Tverskaya) ist ein seltenes Ereignis, seine Vorhersagbarkeit ist sehr gering und daher ist der Informationswert hoch. Informationen werden oft als Nachrichten bezeichnet - Nachrichten über Ereignisse, die gerade stattgefunden haben und von denen wir noch nichts wissen. Aber wenn uns das, was passiert ist, ein zweites und drittes Mal in ungefähr denselben Worten erzählt wird, wird die Redundanz der Nachricht groß sein, ihre Unvorhersehbarkeit wird auf Null sinken, und wir werden einfach nicht zuhören und den Sprecher mit den Worten abwischen: „ Ich weiß, ich weiß." Deshalb bemühen sich die Medien so sehr, die Ersten zu sein. Es ist diese Übereinstimmung mit dem intuitiven Sinn für Neues, die wirklich unerwartete Nachrichten hervorbringt und eine große Rolle dabei spielte, dass Shannons Artikel, der völlig nicht für den Massenleser konzipiert war, zu einer Sensation wurde, die von der Presse aufgegriffen wurde wurde von Wissenschaftlern verschiedener Fachrichtungen als universeller Schlüssel zum Verständnis der Natur akzeptiert - von Linguisten und Literaturkritikern bis hin zu Biologen.

Aber Shannons Informationskonzept ist eine rigorose mathematische Theorie, und seine Anwendung außerhalb der Kommunikationstheorie ist sehr unzuverlässig. Aber in der Kommunikationstheorie selbst spielt sie eine zentrale Rolle.

semantische Informationen

Nachdem Shannon das Konzept der Entropie als Maß für Informationen eingeführt hatte, erhielt er die Gelegenheit, mit Informationen zu arbeiten – zunächst einmal, um sie zu messen und solche Eigenschaften wie Kanalkapazität oder Codierungsoptimalität zu bewerten. Aber die Hauptannahme, die es Shannon ermöglichte, erfolgreich mit Informationen zu arbeiten, war die Annahme, dass die Generierung von Informationen ein zufälliger Prozess ist, der mit Wahrscheinlichkeitstheorie erfolgreich beschrieben werden kann. Wenn der Prozess nicht zufällig ist, das heißt, er gehorcht Mustern (und nicht immer klar, wie es in der natürlichen Sprache der Fall ist), dann ist Shannons Argumentation darauf nicht anwendbar. Alles, was Shannon sagt, hat nichts mit der Aussagekraft von Informationen zu tun.

Solange wir über Symbole (oder Buchstaben des Alphabets) sprechen, denken wir vielleicht in zufälligen Ereignissen, aber sobald wir uns den Wörtern der Sprache zuwenden, ändert sich die Situation dramatisch. Sprache ist ein in besonderer Weise organisierter Vorgang, und hier ist die Struktur der Nachricht nicht weniger wichtig als die Symbole, mit denen sie übermittelt wird.

Bis vor kurzem schien es, dass wir nichts tun könnten, um der Messung der Aussagekraft eines Textes irgendwie näher zu kommen, aber in letzten Jahren die Situation begann sich zu ändern. Und das liegt vor allem an der Verwendung künstlicher neuronaler Netze für die Aufgaben der maschinellen Übersetzung, der automatischen Abstraktion von Texten, der Extraktion von Informationen aus Texten und der Erstellung von Berichten in natürlicher Sprache. Bei all diesen Aufgaben findet die Transformation, Kodierung und Dekodierung von sinnvollen Informationen statt, die in natürlicher Sprache enthalten sind. Und allmählich entsteht eine Vorstellung über Informationsverluste bei solchen Transformationen und damit über das Maß sinnvoller Informationen. Aber bis heute ist die Klarheit und Genauigkeit, die Shannons Informationstheorie hat, bei diesen schwierigen Aufgaben noch nicht vorhanden.

Konzept Entropie erstmals 1865 von R. Clausius in die Thermodynamik eingeführt, um das Maß der irreversiblen Energiedissipation zu bestimmen. Entropie wird in verschiedenen Wissenschaftszweigen, einschließlich der Informationstheorie, als Maß für die Unsicherheit jeder Erfahrung, jedes Tests, der unterschiedliche Ergebnisse haben kann, verwendet. Diese Definitionen der Entropie haben einen tiefen inneren Zusammenhang. Aus den Vorstellungen von Information lassen sich also alle wichtigen Bestimmungen der statistischen Physik ableiten. [BES. Physik. M: Groß Russische Enzyklopädie, 1998].

Information Binäre Entropie für unabhängige (nicht gleichwahrscheinliche) Zufallsereignisse X Mit N mögliche Zustände (von 1 bis N, P- Wahrscheinlichkeitsfunktion) berechnet Shannons Formel:

Dieser Wert wird auch genannt durchschnittliche Entropie Mitteilungen. Die Entropie in der Shannon-Formel ist die durchschnittliche Eigenschaft - mathematische Erwartung Verteilung zufällige Variable.
Beispielsweise erscheinen in der Folge von Buchstaben, die einen beliebigen Satz auf Russisch bilden, verschiedene Buchstaben mit unterschiedlichen Häufigkeiten, sodass die Unsicherheit des Auftretens für einige Buchstaben geringer ist als für andere.
Als Claude Shannon 1948 das Problem der rationalen Übertragung von Informationen über einen verrauschten Kommunikationskanal untersuchte, schlug er einen revolutionären probabilistischen Ansatz zum Verständnis von Kommunikation vor und schuf die erste wirklich mathematische Theorie der Entropie. Seine sensationellen Ideen dienten schnell als Grundlage für die Entwicklung der Informationstheorie, die den Begriff der Wahrscheinlichkeit verwendet. Das Konzept der Entropie als Maß für die Zufälligkeit wurde von Shannon in seinem Artikel „A Mathematical Theory of Communication“ eingeführt, der 1948 in zwei Teilen im Bell System Technical Journal veröffentlicht wurde.

Bei gleich wahrscheinlichen Ereignissen (Sonderfall), wenn alle Optionen gleich wahrscheinlich sind, bleibt die Abhängigkeit nur von der Anzahl der betrachteten Optionen, und die Shannon-Formel ist stark vereinfacht und stimmt mit der zuerst vorgeschlagenen Hartley-Formel überein ein amerikanischer Ingenieur Ralf Hartley 1928 als einer von wissenschaftliche Ansätze Nachrichten auswerten:

, wobei I die Menge der übertragenen Informationen, p die Wahrscheinlichkeit eines Ereignisses, N die mögliche Anzahl unterschiedlicher (äquiwahrscheinlicher) Nachrichten ist.

Aufgabe 1. Gleich wahrscheinliche Ereignisse.
Es gibt 36 Karten in einem Deck. Wie viele Informationen enthält die Nachricht, dass eine Karte mit einem Porträt von „Ass“ aus dem Stapel genommen wurde; "Pik-Ass"?

Wahrscheinlichkeit p1 = 4/36 = 1/9 und p2 = 1/36. Unter Verwendung der Hartley-Formel haben wir:

Antwort: 3.17; 5,17 Bit
Beachten Sie (aus dem zweiten Ergebnis), dass 6 Bits benötigt werden, um alle Karten zu codieren.
Aus den Ergebnissen geht auch hervor, dass je geringer die Wahrscheinlichkeit eines Ereignisses ist, desto mehr Informationen sind darin enthalten. (Diese Eigenschaft heißt Monotonie)

Aufgabe 2. Über ungleiche Ereignisse
Es gibt 36 Karten in einem Deck. Davon 12 Karten mit "Portraits". Der Reihe nach wird eine der Karten vom Stapel genommen und gezeigt, um festzustellen, ob ein Porträt darauf abgebildet ist. Die Karte wird in den Stapel zurückgelegt. Bestimmen Sie die Menge an Informationen, die jedes Mal übertragen werden, wenn eine Karte gezeigt wird.

Informationsentropie- ein Maß für die Ungewissheit oder Unvorhersagbarkeit eines bestimmten Systems (in der statistischen Physik oder Informationstheorie), insbesondere die Ungewissheit des Auftretens eines Symbols des Primäralphabets. Im letzteren Fall ist die Entropie ohne Informationsverlust numerisch gleich der Informationsmenge pro Symbol der übertragenen Nachricht.

Beispielsweise erscheinen in der Folge von Buchstaben, die einen beliebigen Satz auf Russisch bilden, verschiedene Buchstaben mit unterschiedlichen Häufigkeiten, sodass die Unsicherheit des Auftretens für einige Buchstaben geringer ist als für andere. Wenn wir berücksichtigen, dass einige Buchstabenkombinationen (in diesem Fall spricht man von Entropie n (\displaystyle n) Ordnung, siehe ) sehr selten sind, dann nimmt die Unsicherheit noch mehr ab.

Das Konzept der Informationsentropie lässt sich mit Hilfe von Maxwells Dämon veranschaulichen. Die Konzepte von Information und Entropie haben tiefe Verbindungen miteinander [ welche?] , aber trotzdem dauerte die Entwicklung von Theorien in der statistischen Mechanik und der Informationstheorie viele Jahre, bis sie einander entsprachen [ ] .

Entropie- dies ist die Informationsmenge pro elementarer Nachricht der Quelle, die statistisch unabhängige Nachrichten generiert.

Enzyklopädisches YouTube

    1 / 5

    ✪ Entropie verstehen

    ✪ Was ist Entropie?

    ✪ Informationsentropie

    ✪ Entropie und der zweite Hauptsatz der Thermodynamik (Video 3) | Energie| Biologie

    ✪ Was ist Entropie? Jeff Phillips #TED-Ed

    Untertitel

    Wir haben also zwei Definitionen der Entropie als Zustandsvariable gegeben. Die Entropie wird mit dem Buchstaben S bezeichnet. Gemäß der thermodynamischen Definition sind Entropieänderungen gleich der zugeführten Wärme dividiert durch die Temperatur, bei der diese Wärme zugeführt wird. Wenn sich jedoch die Temperatur ändert, wenn Wärme zugeführt wird (was normalerweise der Fall ist), müssen wir einige Berechnungen durchführen. Und Sie können dies als eine mathematische oder statistische oder kombinatorische Definition der Entropie betrachten. Nach dieser Definition ist die Entropie gleich dem natürlichen Logarithmus der Anzahl der Zustände, die ein System annehmen kann, multipliziert mit einer konstanten Zahl. Und in einem solchen Fall haben alle Zustände die gleiche Wahrscheinlichkeit. Wenn wir von einer unvorstellbar großen Anzahl von Molekülen sprechen, die noch mehr Zustände haben können, können wir davon ausgehen, dass sie sich alle mit ungefähr gleicher Wahrscheinlichkeit unterscheiden werden. Es gibt auch eine etwas kompliziertere Definition - für Fälle mit einer Wahrscheinlichkeit einer anderen Ordnung, aber jetzt werden wir darauf nicht eingehen. Nachdem wir diese beiden Definitionen behandelt haben, ist es an der Zeit, Ihnen etwas über den zweiten Hauptsatz der Thermodynamik zu erzählen. Da ist er. Dies ist ein ziemlich einfaches Gesetz, das gleichzeitig eine sehr große Bandbreite unterschiedlicher Phänomene erklärt. Nach diesem Gesetz sind Änderungen der Entropie im Universum während der Durchführung eines Prozesses immer größer oder gleich 0. Das heißt, wenn etwas im Universum passiert, ist das Ergebnis davon eine Zunahme der Entropie. Dies ist eine sehr wichtige Schlussfolgerung. Mal sehen, ob wir dieses Gesetz anwenden können bestimmte Situationen und so seine Bedeutung verstehen. Nehmen wir an, ich habe zwei Tanks miteinander verbunden. Hier habe ich T1. Lass das unser heißer Tank sein. Und hier haben wir T2. Dies wird der kalte Tank sein. Nun, wir wissen es aus Erfahrung... Was passiert, wenn ein Gefäß mit heißem Wasser eine Wand mit einem Gefäß mit kaltem Wasser teilt? Was passiert in einem solchen Fall? Ja, die Temperatur des Wassers in ihnen pendelt sich ein. Wenn wir von der gleichen Substanz sprechen, stoppt der Prozess ungefähr in der Mitte, wenn sie sich in der gleichen Phase befinden. Wir haben es also mit der Übertragung von Wärme von einem heißeren Stoff auf einen kälteren zu tun. Wir haben etwas Wärme, Q, die von einer heißeren Substanz auf eine kältere übertragen wird. Natürlich werden Sie in der alltäglichen Realität nicht sehen, dass Wärme von einer kälteren Substanz auf eine wärmere übertragen wird. Wenn Sie beispielsweise einen Eiswürfel in heißen Tee geben, wird das Eis natürlich nicht kälter und der Tee nicht heißer. Die Temperatur beider Substanzen wird ungefähr gleich, dh der Tee gibt tatsächlich einen Teil der Wärme an das Eis ab. Wir sprechen auch von zwei Tanks, und ich gehe davon aus, dass deren Temperatur konstant bleibt. Dies kann nur passieren, wenn beide unendlich groß sind, was in der realen Welt natürlich nicht existiert. IN echte Welt T1 sinkt und T2 steigt. Aber mal sehen, ob dies nach dem zweiten Hauptsatz der Thermodynamik passieren sollte. Also, was ist hier los? Wie groß ist die Netto-Entropieänderung für T1? Nach dem zweiten Hauptsatz der Thermodynamik ist die Entropieänderung für das Universum größer als 0. Aber in diesem Fall ist sie gleich der Entropieänderung für T1 plus der Entropieänderung für ... obwohl nicht genau ... statt T1 nennen wir es einfach 1 ... für System 1, das heißt hier für dieses heiße System plus die Entropieänderung für System 2. Was ist also die Entropieänderung für System 1? Es verliert Q1 bei hoher Temperatur. Es ergibt sich minus Q (weil das System Wärme abgibt) dividiert durch T1. Dann müssen wir die dem T2-System zugeführte Wärme berücksichtigen. Also lasst uns Q dividiert durch T2 addieren. Wir bekommen die Entropieänderung für System 2, richtig? Dieses Reservoir, das eine Temperatur von 1 höher hat, verliert Wärme. Und das Reservoir, das eine niedrigere Temperatur 2 hat, nimmt Wärme auf. Wäre es nicht höher als 0? Denken wir ein wenig nach. Wenn wir dividieren... lass es mich umschreiben... ich schreibe es anders: Q dividiert durch T2, minus dies. Ich ordne nur die Zahlen neu an... minus Q dividiert durch T1. Und was ist jetzt die höhere Punktzahl? T2 oder T1? Nun, T1 ist größer, oder? Jetzt, wo wir eine höhere Punktzahl haben ... Wenn wir das Wort "höher" verwenden, meinen wir einen bestimmten Vergleich. T1 liegt also über diesem. Außerdem haben wir im Zähler in beiden Fällen die gleiche Zahl, richtig? Das heißt, wenn ich, sagen wir, 1/2 minus 1/3 nehme, dann bekomme ich einen Indikator größer als 0. Dieser Indikator ist größer als dieser, weil dieser einen größeren Nenner hat. Du teilst durch eine größere Zahl. Es lohnt sich, darüber nachzudenken. Sie teilen Q durch diese Zahl und subtrahieren dann Q geteilt durch die größere Zahl. Dieser Bruchteil hier wird also einen niedrigeren absoluten Wert haben. Und es wird größer als 0 sein. Dementsprechend wird der zweite Hauptsatz der Thermodynamik durch unsere Beobachtung bestätigt, wonach Wärme von einem heißen Körper auf einen kalten übergeht. Jetzt kannst du sagen, hey Sal, ich kann dir das Gegenteil beweisen. Sie können erkennen, ob ich eine Klimaanlage in den Raum einbaue ... Hier ist der Raum, und hier ist, was draußen ist. Und Sie sagen - schauen Sie, was die Klimaanlage macht! Im Zimmer ist es schon kalt, aber draußen ist es schon heiß. Aber was macht eine Klimaanlage? Es macht Kälte noch kälter und Hitze noch heißer. Er nimmt etwas Q und bewegt sich in diese Richtung. Rechts? Es nimmt Wärme aus einem kalten Raum auf und gibt sie an heiße Luft ab. Und Sie sagen, es verstoße gegen den zweiten Hauptsatz der Thermodynamik. Du hast es gerade widerlegt. Du verdienst Nobelpreis! Aber ich sage Ihnen – Sie vergessen eine kleine Tatsache. In dieser Klimaanlage befinden sich ein Kompressor und ein Motor, die aktiv arbeiten und ein solches Ergebnis erzielen. Und dieser Motor, ich werde ihn rosa hervorheben, gibt auch Wärme ab. Nennen wir es die Q-Engine. Wenn Sie also die gesamte erzeugte Entropie für das gesamte Universum berechnen möchten, wäre dies die Entropie eines kalten Raums plus die Entropieänderung für die Straße. Kühlraumentropie plus Außenentropieänderung. Lassen Sie uns hier einen Raum markieren ... Sie können sagen - okay. Diese Entropieänderung für einen Raum, der Wärme abgibt ... nehmen wir an, dass der Raum mindestens eine Millisekunde lang eine konstante Temperatur beibehält. Der Raum gibt bei einer bestimmten Temperatur T1 etwas Q ab. Und dann ... muss man hier ein Minus setzen ... dann bekommt die Straße bei einer bestimmten Temperatur T2 etwas Wärme. Und Sie sagen: Diese Zahl ist geringer als diese. Weil der Nenner größer ist. Dann wird es negative Entropie sein, und man kann sagen, dass dies gegen den zweiten Hauptsatz der Thermodynamik verstößt. Nein! Hier müssen wir noch einen Punkt berücksichtigen: dass die Straße auch Wärme vom Motor erhält. Motorwärme dividiert durch Außentemperatur. Und ich garantiere, dass diese Variable, ich werde jetzt keine Zahlen nennen, diesen ganzen Ausdruck positiv machen wird. Diese Variable wird die gesamte Nettoentropie für das Universum in eine positive umwandeln. Lassen Sie uns nun ein wenig darüber nachdenken, was Entropie in Bezug auf die Terminologie ist. Im Chemieunterricht ist es nicht ungewöhnlich, dass ein Lehrer sagt, dass Entropie gleich Unordnung ist. Es ist kein Fehler. Entropie ist gleich Unordnung. Das ist kein Fehler, denn Entropie ist wirklich eine Unordnung, aber Sie müssen sehr vorsichtig mit der Definition von Unordnung sein. Denn eines der häufigsten Beispiele ist: Nehmen Sie ein sauberes Zimmer – sagen wir, Ihr Schlafzimmer ist sauber, aber dann wird es schmutzig. Und sie sagen - schau, das Universum ist ungeordneter geworden. Ein schmutziges Zimmer hat mehr Unordnung als ein sauberes. Dies ist jedoch keine Zunahme der Entropie. Das ist also kein sehr gutes Beispiel. Warum? Ja, denn sauber und dreckig sind nur die Zustände des Zimmers. Und wir erinnern uns, dass die Entropie eine Makro-Zustandsvariable ist. Sie verwenden es für Systembeschreibungen wenn Sie nicht in der Stimmung sind, hier zu sitzen und mir genau zu sagen, was jedes Teilchen tut. Und es ist eine Makrovariable, die zeigt, wie lange es dauert, mir zu sagen, was jedes Partikel tut. Diese Variable gibt an, wie viele Zustände es in diesem Fall gibt bzw. wie viele Informationen zu den Zuständen ich von Ihnen erhalten möchte. Bei einem Reinraum und einem Schmutzraum haben wir nur zwei unterschiedliche Zustände desselben Raums. Wenn der Raum auf der gleichen Temperatur gehalten wird und die gleiche Anzahl von Molekülen usw. hat, dann hat er die gleiche Entropie. Wenn also der Raum schmutziger wird, nimmt die Entropie nicht zu. Ich habe zum Beispiel einen dreckigen Kühlraum. Nehmen wir an, ich bin in dieses Zimmer gegangen und habe mir viel Mühe gegeben, es zu reinigen. Also füge ich dem System eine Portion Wärme hinzu, und die Moleküle meines Schweißes verteilen sich im ganzen Raum - entsprechend ist mehr Inhalt darin, und es wird wärmer, es wird ein heißer, reiner Raum mit Schweißtropfen. Dieser Inhalt kann auf viele Arten angeordnet werden, und da der Raum heiß ist, kann jedes Molekül darin mehr Zustände annehmen, richtig? Da die durchschnittliche kinetische Energie hoch ist, kann man versuchen herauszufinden, wie viele kinetische Energien jedes Molekül haben kann, und im Potential kann dieser Betrag ziemlich groß sein. Im Wesentlichen ist dies eine Zunahme der Entropie. Von einem schmutzigen, kalten Raum zu einem heißen und sauberen. Und das passt ziemlich gut zu dem, was wir wissen. Das heißt, wenn ich einen Raum betrete und anfange ihn zu putzen, bringe ich Wärme hinein. Und das Universum wird immer mehr ... Ich denke, wir können sagen, dass die Entropie zunimmt. Wo ist hier also die Verwirrung? Nehmen wir an, ich habe einen Ball und er trifft auf den Boden und trifft ihn. Und hier müssen wir eine Frage stellen, die seit der Entdeckung des ersten Hauptsatzes der Thermodynamik ständig gestellt wurde. Sobald der Ball den Boden berührt... Der Ball berührt den Boden, richtig? Ich habe es geworfen: In seinem oberen Teil befindet sich eine bestimmte potenzielle Energie, die sich dann in verwandelt kinetische Energie, und der Ball berührt den Boden und stoppt dann. Hier stellt sich eine völlig logische Frage – was ist mit all dieser Energie passiert? Gesetz der Energieeinsparung. Wo ist sie nur hingegangen? Kurz bevor der Ball den Boden berührte, hatte er kinetische Energie und blieb dann stehen. Es scheint, dass die Energie verschwunden ist. Aber das ist nicht so. Wenn der Ball fällt, hat er viel ... wie Sie wissen, hat alles seine eigene Wärme. Aber was ist mit der Erde? Seine Moleküle vibrierten mit einer bestimmten kinetischen Energie und potentieller Energie. Und dann begannen die Moleküle unseres Balls ein wenig zu vibrieren. Aber ihre Bewegung ging hauptsächlich nach unten, richtig? Die Bewegung der meisten Moleküle der Kugel war nach unten gerichtet. Wenn er den Boden berührt, dann... lass mich die Oberfläche des Balls zeichnen, die den Boden berührt. Die Moleküle des Balls in seinem vorderen Teil sehen so aus. Und davon gibt es einige. Das solide. Wahrscheinlich mit Gitterstruktur. Und dann landet der Ball auf dem Boden. Wenn das passiert … ist die Erde ein weiterer fester Körper … Großartig, hier haben wir einen Mikrozustand. Was wird passieren? Diese Moleküle werden mit diesen interagieren und ihre nach unten gerichtete kinetische Energie übertragen ... Sie werden sie auf diese Teilchen der Erde übertragen. Und stelle dich ihnen. Und wenn beispielsweise dieses Teilchen mit diesem kollidiert, kann es sich in diese Richtung bewegen. Und dieses Teilchen wird anfangen, so hin und her zu schwingen. Dieses Teilchen hier kann von diesem abprallen und sich in diese Richtung bewegen und dann mit diesem kollidieren und sich hierher bewegen. Und dann, weil dieses Teilchen hier hier auftrifft, trifft dieses hier auf, und weil dieses hier auftrifft, trifft dieses hier auf. Aus Sicht des Balls gibt es eine relativ gerichtete Bewegung, aber wenn er mit den Molekülen der Erde in Kontakt kommt, beginnt er, kinetische Energie zu erzeugen und eine Bewegung in verschiedene Richtungen zu erzeugen. Dieses Molekül hier wird dieses hier bewegen, und dieses hier wird sich bewegen. Nun, die Bewegung wird nicht gerichtet sein, wenn wir so viele Moleküle haben ... Ich werde sie mit einer anderen Farbe markieren ... nun, wenn wir viele Moleküle haben und sie sich alle in genau die gleiche Richtung bewegen, dann sieht der Mikrozustand so aus ein Makrozustand. Der ganze Körper wird in dieser Richtung sein. Wenn wir viele v haben und sie sich alle in verschiedene Richtungen bewegen, bleibt mein Ball als Ganzes an Ort und Stelle. Wir können die gleiche Menge an kinetischer Energie haben Molekulare Ebene , aber sie werden alle miteinander kollidieren. Und in diesem Fall können wir die kinetische Energie als innere Energie oder als Temperatur beschreiben, was die durchschnittliche kinetische Energie ist. Wenn wir also sagen, dass die Welt chaotischer wird, denken wir an die Reihenfolge der Geschwindigkeiten oder Energien der Moleküle. Bevor sie geordnet werden, können die Moleküle ein wenig vibrieren, aber meistens fallen sie herunter. Aber wenn sie auf dem Boden aufschlagen, fangen sie alle sofort an, etwas mehr in verschiedene Richtungen zu vibrieren. Und auch die Erde beginnt in verschiedene Richtungen zu schwingen. Also – auf der Mikrozustandsebene – werden die Dinge viel chaotischer. Es gibt noch eine ziemlich interessante Frage. Es gibt noch eine andere Möglichkeit … Sie könnten denken: „Schauen Sie, dieser Ball ist heruntergefallen und auf dem Boden aufgeschlagen. Warum tut er nicht einfach - könnte es nicht sein, dass die Moleküle der Erde selbst ihre Reihenfolge ändern, damit sie die Moleküle des Balls richtig treffen? Es besteht eine gewisse Wahrscheinlichkeit, dass durch die zufällige Bewegung irgendwann alle Moleküle der Erde einfach so auf die Moleküle der Kugel treffen, dass diese wieder hochspringt. Ja das stimmt. Es besteht immer eine verschwindend geringe Wahrscheinlichkeit, dass dies geschieht. Es besteht die Möglichkeit, dass der Ball einfach auf dem Boden liegt ... was ziemlich interessant ist ... Sie werden wahrscheinlich hundert Millionen Jahre darauf warten müssen, wenn es jemals passiert ... und der Ball kann einfach aufprallen. Es besteht eine sehr geringe Wahrscheinlichkeit, dass diese Moleküle zufällig so vibrieren, dass sie für eine Sekunde geordnet sind, und dann springt der Ball. Aber die Wahrscheinlichkeit dafür ist praktisch 0. Wenn also von Ordnung und Unordnung gesprochen wird, nimmt die Unordnung zu, weil sich diese Moleküle nun in verschiedene Richtungen bewegen und mehr mögliche Zustände annehmen werden. Und wir haben es gesehen. Wie Sie wissen, sieht die Entropie auf einer bestimmten Ebene wie etwas Magisches aus, aber auf anderen Ebenen erscheint sie ziemlich logisch. In einem Video ... Ich glaube, das war das letzte Video ... Ich hatte viele Moleküle, und dann war da dieser zusätzliche Raum genau hier, nach dem ich die Wand entfernt habe. Und wir haben gesehen, dass diese Moleküle ... es ist klar, dass einige Moleküle zuvor von dieser Wand abgestoßen wurden, weil ein gewisser Druck damit verbunden war. Sobald wir diese Wand entfernen, werden sich die Moleküle, die sie getroffen hätten, weiter bewegen. Nichts kann sie aufhalten. Die Bewegung wird in diese Richtung ausgeführt. Sie können mit anderen Molekülen und mit diesen Wänden kollidieren. Aber was diese Richtung anbelangt, ist die Stoßwahrscheinlichkeit speziell für diese Moleküle grundsätzlich 0. Es kommt also zu einer Ausdehnung und Füllung des Behälters. Also alles ganz logisch. Aber am wichtigsten ist, dass der zweite Hauptsatz der Thermodynamik, wie wir in diesem Video gesehen haben, dasselbe sagt. Das heißt, dass sich die Moleküle bewegen und den Behälter füllen. Und es ist sehr unwahrscheinlich, dass sie alle in einen geordneten Zustand zurückkehren werden. Natürlich besteht eine gewisse Möglichkeit, dass sie durch zufälliges Bewegen in diese Position zurückkehren. Aber diese Wahrscheinlichkeit ist sehr, sehr gering. Außerdem, und das möchte ich betonen, ist S ein Makrozustand. Wir sprechen nie über Entropie in Bezug auf ein einzelnes Molekül. Wenn wir wissen, was ein einzelnes Molekül tut, müssen wir uns keine Sorgen um die Entropie machen. Wir müssen das System als Ganzes betrachten. Wenn wir also das ganze System betrachten und die Moleküle ignorieren, werden wir nicht wissen, was wirklich passiert ist. In diesem Fall können wir nur auf die statistischen Eigenschaften von Molekülen achten. Wie viele Moleküle haben wir, wie ist ihre Temperatur, ihre Makrodynamik, ihr Druck... und weißt du was? Der Behälter, in dem diese Moleküle untergebracht sind, hat mehr Zustände als ein kleinerer Behälter mit einer Wand. Selbst wenn sich hier plötzlich alle Moleküle zufällig versammeln, werden wir nicht wissen, dass dies passiert ist, weil wir Mikrozustände nicht betrachten. Und das ist sehr wichtig zu beachten. Wenn jemand sagt, dass ein schmutziger Raum eine höhere Entropie hat als ein sauberer, müssen wir verstehen, dass er über Mikrozustände spricht. Und Entropie ist zuallererst ein Konzept, das mit einem Makrozustand verbunden ist. Man kann einfach sagen, dass ein Raum eine gewisse Entropie hat. Das heißt, das Konzept der Entropie bezieht sich auf den Raum als Ganzes, aber es wird nur nützlich sein, wenn Sie nicht genau wissen, was darin passiert. Du hast nur das Meiste Grund Idee darüber, womit der Raum gefüllt ist, welche Temperatur darin herrscht, welcher Druck. Dies sind alles allgemeine Makroeigenschaften. Die Entropie wird uns sagen, wie viele Makrozustände dieses Makrosystem haben kann. Oder wie viele Informationen, schließlich gibt es das Konzept der Informationsentropie, wie viele Informationen muss ich Ihnen liefern, damit Sie zum richtigen Zeitpunkt eine genaue Vorstellung vom Mikrozustand des Systems bekommen. Ungefähr so. Ich hoffe, diese Diskussion hat Ihnen etwas geholfen und einige Missverständnisse über Entropie ausgeräumt und Ihnen geholfen, eine Vorstellung davon zu bekommen, was es wirklich ist. Bis zum nächsten Video!

Formale Definitionen

Informativ binäre Entropie für unabhängige zufällige Ereignisse x (\displaystyle x) Mit n (\displaystyle n) mögliche Zustände verteilt mit Wahrscheinlichkeiten ( ich = 1 , . . . , n (\displaystyle i=1,...,n)), wird durch die Formel berechnet

H. (x) = - - ∑ ich = 1 n p ich log 2 ⁡ p ich . (\displaystyle H(x)=-\sum _(i=1)^(n)p_(i)\log _(2)p_(i).)

Dieser Wert wird auch genannt durchschnittliche Nachrichtenentropie. Wert H. ich = − log 2 ⁡ p ich (\displaystyle H_(i)=-\log _(2)(p_(i))) genannt private Entropie nur charakterisieren ich (\displaystyle ich)-Anwesen. Im Allgemeinen kann die Basis des Logarithmus in der Definition der Entropie alles größer als 1 sein; seine Wahl bestimmt die Entropieeinheit. Daher kann es oft (z. B. bei Problemen der mathematischen Statistik) bequemer sein, den natürlichen Logarithmus zu verwenden.

Also die Entropie des Systems x (\displaystyle x) ist die Summe mit entgegengesetztem Vorzeichen aller relativen Häufigkeiten des Auftretens des Zustands (Ereignisses) mit der Zahl ich (\displaystyle ich), multipliziert mit ihren eigenen binären Logarithmen . Diese Definition für diskrete zufällige Ereignisse kann formal erweitert werden auf kontinuierliche Verteilungen gegeben durch die Dichte Verteilung der Wahrscheinlichkeiten , wird das resultierende Funktional jedoch etwas andere Eigenschaften haben (siehe differentielle Entropie).

Definition nach Shannon

Die Definition der Shannon-Entropie ist mit dem Konzept der thermodynamischen Entropie verbunden. Boltzmann und Gibbs haben großartige Arbeit geleistet Statistische Thermodynamik, die zur Annahme des Wortes "Entropie" in der Informationstheorie beitrug. Es besteht ein Zusammenhang zwischen thermodynamischer und informationeller Entropie. Zum Beispiel kontrastiert Maxwells Dämon auch die thermodynamische Entropie von Informationen, und das Gewinnen einer beliebigen Menge an Informationen ist gleichbedeutend mit verlorener Entropie.

Definition anhand eigener Angaben

Es ist auch möglich, die Entropie einer Zufallsvariablen zu bestimmen, indem man zuerst die Konzepte der Verteilung einer Zufallsvariablen einführt X (\ displaystyle X), die eine endliche Anzahl von Werten hat:

P X (x i) = p ich , p ich ≥ 0 , ich = 1 , 2 , … , n (\displaystyle P_(X)(x_(i))=p_(i),\quad p_(i)\geqslant 0,\ ;i=1,\;2,\;\ldots ,\;n) ∑ ich = 1 n p ich = 1 (\displaystyle \sum _(i=1)^(n)p_(i)=1) ich (X) = - log ⁡ P X (X) . (\displaystyle I(X)=-\log P_(X)(X).)

Dann ist die Entropie definiert als:

H. (X) = E. (ich (X)) = − ∑ ich = 1 n p (i) log ⁡ p (i) . (\displaystyle H(X)=E(I(X))=-\sum _(i=1)^(n)p(i)\log p(i).)

Die Maßeinheit der Informationsmenge und Entropie hängt von der Basis des Logarithmus ab: Bit, Nat, Trit oder Hartley.

Eigenschaften

Entropie ist eine Größe, die im Kontext eines probabilistischen Modells für eine Datenquelle definiert wird. Zum Beispiel hat das Werfen einer Münze Entropie:

− 2 (1 2 log 2 ⁡ 1 2) = − log 2 ⁡ 1 2 = log 2 ⁡ 2 = 1 (\displaystyle -2\left((\frac (1)(2))\log _(2)( \frac (1)(2))\right)=-\log _(2)(\frac (1)(2))=\log _(2)2=1) Bits pro Wurf (vorausgesetzt, es ist unabhängig) und die Anzahl mögliche Zustände gleich: 2 1 = 2 (\displaystyle 2^(1)=2) mögliche Zustände(Bedeutungen) ("Adler" und "Schwänze").

Eine Quelle, die eine Zeichenfolge generiert, die nur aus den Buchstaben "A" besteht, hat eine Entropie von Null: − ∑ ich = 1 ∞ log 2 ⁡ 1 = 0 (\displaystyle -\sum _(i=1)^(\infty )\log _(2)1=0), und die Menge mögliche Zustände gleich: 2 0 = 1 (\displaystyle 2^(0)=1) möglicher Zustand(Wert) ("A") und hängt nicht von der Basis des Logarithmus ab.
Auch das sind Informationen, die ebenfalls berücksichtigt werden müssen. Ein Beispiel für Speichergeräte, die Bits mit einer Entropie gleich Null verwenden, aber mit Menge an Informationen gleich 1 möglicher Zustand, d.h. Nicht-Null sind Datenbits, die in das ROM geschrieben werden, wobei jedes Bit nur eins hat möglicher Zustand.

So lässt sich beispielsweise experimentell feststellen, dass die Entropie englischer Text entspricht 1,5 Bit pro Zeichen, was natürlich für verschiedene Texte unterschiedlich sein wird. Der Entropiegrad einer Datenquelle bedeutet die durchschnittliche Anzahl von Bits pro Datenelement, die erforderlich sind, um sie ohne Informationsverlust bei optimaler Codierung zu verschlüsseln.

  1. Einige Datenbits tragen möglicherweise keine Informationen. Beispielsweise speichern Datenstrukturen häufig redundante Informationen oder haben unabhängig von den Informationen in der Datenstruktur identische Abschnitte.
  2. Die Entropiemenge wird nicht immer als ganze Zahl von Bits ausgedrückt.

Mathematische Eigenschaften

  1. Nicht-Negativität: H (X) ⩾ 0 (\displaystyle H(X)\geqslant 0).
  2. Einschränkung: H (X) = − E (log 2 ⁡ p ich) = ∑ ich = 1 n p ich log 2 ⁡ 1 p ich = ∑ ich = 1 n p ich f (g ich) ⩽ f (∑ ich = 1 n p ich g ich) = log 2 ⁡ n (\displaystyle H(X)=-E(\log _(2)p_(i))=\sum _(i=1)^(n)p_(i)\log _(2)(\frac (1)(p_ (i)))=\sum _(i=1)^(n)p_(i)f(g_(i))\leqslant f\left(\sum _(i=1)^(n)p_(i )g_(i)\right)=\log_(2)n), was aus der Jensen-Ungleichung für die konkave Funktion folgt f (g ich) = log 2 ⁡ g ich (\displaystyle f(g_(i))=\log _(2)g_(i)) Und g ich = 1 p ich (\ displaystyle g_ (i) = (\ frac (1) (p_ (i)))). Ich falle n (\displaystyle n) Elemente aus X (\ displaystyle X) gleichwahrscheinlich, H (X) = log 2 ⁡ n (\displaystyle H(X)=\log _(2)n).
  3. Wenn unabhängig, dann H. (X ⋅ Y) = H. (X) + H. (Y) (\displaystyle H(X\cdot Y)=H(X)+H(Y)).
  4. Entropie ist eine nach oben konvexe Funktion der Wahrscheinlichkeitsverteilung von Elementen.
  5. Wenn X , Y (\displaystyle X,\;Y) haben dann die gleiche Wahrscheinlichkeitsverteilung der Elemente H (X) = H (Y) (\displaystyle H(X)=H(Y)).

Effizienz

Das Alphabet kann eine Wahrscheinlichkeitsverteilung haben, die weit von der Einheitlichkeit entfernt ist. Wenn das ursprüngliche Alphabet enthält n (\displaystyle n) Buchstaben, dann kann es mit einem "optimierten Alphabet" verglichen werden, dessen Wahrscheinlichkeitsverteilung einheitlich ist. Das Entropieverhältnis des ursprünglichen und optimierten Alphabets ist Effizienz Quellalphabet, das in Prozent ausgedrückt werden kann. Die Effizienz des ursprünglichen Alphabets mit n (\displaystyle n) Zeichen können auch als seine definiert werden n (\displaystyle n)-äre Entropie.

Die Entropie begrenzt die maximal mögliche verlustfreie (oder nahezu verlustfreie) Komprimierung, die mit einem theoretisch typischen Satz oder in der Praxis mit Huffman-Codierung, Lempel-Ziv-Welch-Codierung oder arithmetischer Codierung realisiert werden kann.

Variationen und Verallgemeinerungen

B-äre Entropie

Allgemein B-äre Entropie(Wo B entspricht 2, 3, ...) Quellen S = (S , P) (\displaystyle (\mathcal (S))=(S,\;P)) mit Originalalphabet S = ( ein 1 , … , ein n ) (\displaystyle S=\(a_(1),\;\ldots ,\;a_(n)\)) Und diskrete Verteilung Wahrscheinlichkeiten P = ( p 1 , … , p n ) , (\displaystyle P=\(p_(1),\;\ldots ,\;p_(n)\),) Wo p ich (\ displaystyle p_ (i)) ist die Wahrscheinlichkeit ( p ich = p (a ich) (\ displaystyle p_ (i) = p (a_ (i)))), wird durch die Formel bestimmt:

H. b (S) = - - ∑ ich = 1 n p ich log b ⁡ p ich . (\displaystyle H_(b)((\mathcal (S)))=-\sum _(i=1)^(n)p_(i)\log _(b)p_(i).)

Vor allem wann b = 2 (\displaystyle b=2), erhalten wir die übliche binäre Entropie, gemessen in Bits. Bei b = 3 (\displaystyle b=3) erhalten wir eine in Trits gemessene trinäre Entropie (ein Trit hat eine Informationsquelle mit drei gleichwahrscheinlichen Zuständen). Bei b = e (\displaystyle b=e), erhalten wir Informationen, die in Nats gemessen werden.

Bedingte Entropie

Wenn die Reihenfolge der alphabetischen Zeichen nicht unabhängig ist (z. B. folgt im Französischen auf den Buchstaben „q“ fast immer „u“ und nach dem Wort „Führer“ in sowjetischen Zeitungen das Wort „Produktion“ oder „Arbeit“ normalerweise befolgt wurde), ist die Informationsmenge, die die Folge solcher Symbole trägt (und damit die Entropie), offensichtlich kleiner. Bedingte Entropie wird verwendet, um solche Tatsachen zu berücksichtigen.

Bedingte Entropie Die erste Ordnung (ähnlich für das Markov-Modell erster Ordnung) wird als Entropie für das Alphabet bezeichnet, bei der die Wahrscheinlichkeiten für das Auftreten eines Buchstabens nach dem anderen bekannt sind (dh die Wahrscheinlichkeiten von Zwei-Buchstaben-Kombinationen):

H. 1 (S) = - - ∑ ich p ich ∑ j p ich (j) log 2 ⁡ p ich (j) , (\ displaystyle H_ (1) ((\ mathcal (S))) = - \ sum _ (i) p_ (i) \sum _(j)p_(i)(j)\log _(2)p_(i)(j),)

Wo ich (\displaystyle ich) ist der vom vorangehenden Zeichen abhängige Zustand, und p ich (j) (\ displaystyle p_ (i) (j)) ist die Wahrscheinlichkeit j (\ displaystyle j) unter der Vorraussetzung, dass ich (\displaystyle ich) war der vorherige Charakter.

Zum Beispiel für die russische Sprache ohne den Buchstaben "ё" H 0 = 5 , H 1 = 4,358 , H 2 = 3 , 52 , H 3 = 3 , 01 (\displaystyle H_(0)=5,\;H_(1)=4(,)358,\;H_( 2)=3(,)52,\;H_(3)=3(,)01) .

Die partiellen und allgemeinen bedingten Entropien beschreiben Informationsverluste während der Datenübertragung in einem verrauschten Kanal vollständig. Dafür werden die sog Kanalmatrizen. Zur Beschreibung der Verluste auf der Quellenseite (d. h. das gesendete Signal ist bekannt) wird die bedingte Wahrscheinlichkeit betrachtet, ein Symbol vom Empfänger zu empfangen, sofern das Symbol gesendet wurde ein ich (\displaystyle a_(i)). In diesem Fall hat die Kanalmatrix folgende Form:

b 1 (\displaystyle b_(1)) b 2 (\displaystyle b_(2)) bj (\displaystyle b_(j)) bm (\displaystyle b_(m))
a 1 (\displaystyle a_(1)) p (b 1 ∣ a 1) (\displaystyle p(b_(1)\mid a_(1))) p (b 2 ∣ a 1) (\displaystyle p(b_(2)\mid a_(1))) p (b j ∣ a 1) (\displaystyle p(b_(j)\mid a_(1))) p (b m ∣ a 1) (\displaystyle p(b_(m)\mid a_(1)))
a 2 (\displaystyle a_(2)) p (b 1 ∣ a 2) (\displaystyle p(b_(1)\mid a_(2))) p (b 2 ∣ ein 2) (\displaystyle p(b_(2)\mid a_(2))) p (b j ∣ ein 2) (\displaystyle p(b_(j)\mid a_(2))) p (b m ∣ a 2) (\displaystyle p(b_(m)\mid a_(2)))
ein ich (\displaystyle a_(i)) p (b 1 ∣ a i) (\displaystyle p(b_(1)\mid a_(i))) p (b 2 ∣ a i) (\displaystyle p(b_(2)\mid a_(i))) p (b j ∣ a i) (\displaystyle p(b_(j)\mid a_(i))) p (b m ∣ a i) (\ displaystyle p (b_ (m) \ mid a_ (i)))
ein m (\displaystyle a_(m)) p (b 1 ∣ ein m) (\displaystyle p(b_(1)\mid a_(m))) p (b 2 ∣ ein m) (\displaystyle p(b_(2)\mid a_(m))) p (b j ∣ ein m) (\displaystyle p(b_(j)\mid a_(m))) p (b m ∣ ein m) (\displaystyle p(b_(m)\mid a_(m)))

Offensichtlich beschreiben die entlang der Diagonalen angeordneten Wahrscheinlichkeiten die Wahrscheinlichkeit des korrekten Empfangs, und die Summe aller Elemente einer beliebigen Zeile ergibt 1. Die Verluste, die dem gesendeten Signal zuzuschreiben sind ein ich (\displaystyle a_(i)), werden durch partielle bedingte Entropie beschrieben:

H. (B ∣ ein ich) = − ∑ j = 1 m p (b j ∣ ein ich) log 2 ⁡ p (b j ∣ ein ich) . (\displaystyle H(B\mid a_(i))=-\sum _(j=1)^(m)p(b_(j)\mid a_(i))\log _(2)p(b_( j)\mid a_(i)).)

Um den Übertragungsverlust aller Signale zu berechnen, wird die gesamte bedingte Entropie verwendet:

H (B ∣ EIN) = ∑ ich p (a ich) H (B ∣ ein ich) . (\displaystyle H(B\mid A)=\sum _(i)p(a_(i))H(B\mid a_(i)).)

H. (B ∣ A) (\displaystyle H(B\mid A)) bedeutet Entropie auf der Quellenseite, ähnlich betrachtet H. (A ∣ B) (\displaystyle H(A\mid B))- Entropie von der Empfängerseite: statt p (b j ∣ a i) (\displaystyle p(b_(j)\mid a_(i))) ist überall angegeben p (a ich ∣ b j) (\ displaystyle p (a_ (i) \ mid b_ (j)))(Durch Summieren der Elemente einer Zeile erhalten Sie p (a ich) (\displaystyle p(a_(i))), und die Elemente der Diagonalen bedeuten die Wahrscheinlichkeit, dass genau das empfangene Zeichen gesendet wurde, also die Wahrscheinlichkeit einer korrekten Übertragung).

Gegenseitige Entropie

Gegenseitige Entropie bzw Vereinigungsentropie dient zur Berechnung der Entropie miteinander verbundener Systeme (die Entropie des gemeinsamen Erscheinens statistisch abhängiger Nachrichten) und wird mit bezeichnet H (AB) (\ displaystyle H (AB)), Wo A (\displaystyle A) charakterisiert den Sender, und B (\displaystyle B)- Empfänger.

Ähnliche Artikel

2023 liveps.ru. Hausaufgaben und fertige Aufgaben in Chemie und Biologie.