정보 이론에서 엔트로피는 어떻게 측정됩니까? 정보 엔트로피

1. 소개.

2. Claude Shannon은 무엇을 측정했습니까?

3. 정보 시스템의 진화적 가변성의 한계.

4. 생물학적 종의 제한된 적응.

5. 엔트로피 이론의 발전 단계.

6. 텍스트의 구조적 정보 및 정보 엔트로피의 양을 계산하는 방법.

7. 적응 및 개발 프로세스의 정보 엔트로피 비율.

8. 정보와 에너지.

9. 결론.

10. 서지.

소개

20 세기 후반에 우리의 의견으로는 세계에 대한 과학적 이해의 추가 경로를 크게 결정하는 두 가지 사건이 발생했습니다. 우리는 상승 작용이 비평 형 열역학, 정보 이론 및 일반 시스템 이론의 모든 최신 업적을 사용하는 연구를 위해 정보 이론의 생성과 반 엔트로피 과정의 메커니즘에 대한 연구의 시작에 대해 이야기하고 있습니다.

과학 발전의 이 단계와 이전 단계의 근본적인 차이점은 나열된 연구 영역이 생성되기 전에 과학은 혼돈의 증가와 엔트로피의 증가로 이어지는 프로세스의 메커니즘만 설명할 수 있었다는 것입니다. 라마르크와 다윈 이후 발전된 생물학적, 진화론적 개념은 여전히 ​​엄격한 과학적 근거가 없고, 세상의 모든 과정에 수반되는 엔트로피의 증가가 불가결한 열역학 제2법칙에 위배된다. 물리적 법칙.

비평형 열역학의 장점은 자기 조직화 시스템 내 엔트로피의 국부적 감소가 항상 보상되기 때문에 열역학 제2법칙에 위배되지 않는 반엔트로피 과정의 메커니즘을 밝힐 수 있었다는 점입니다. 절대값에서 엔트로피의 큰 증가 외부 환경.

반엔트로피 과정의 특성과 메커니즘을 이해하기 위한 가장 중요한 단계는 정보의 정량적 측정을 도입하는 것입니다. 처음에 이 조치는 순전히 문제를 해결하기 위한 것이었습니다. 적용된 작업통신 기술. 그러나 물리학 및 생물학 분야의 후속 연구를 통해 정보량과 물리적 엔트로피 사이의 관계를 확립하고 궁극적으로 새로운 과학적 해석의 본질을 결정할 수 있는 K. Shannon이 제안한 보편적 측정을 식별할 수 있었습니다. 본질적으로 가장 다양한 시스템의 구조적 순서를 측정하는 "정보" 개념의 .

은유를 사용하여 과학에 단일 정보 양적 척도를 도입하기 전에 자연 과학 개념으로 제시된 세계는 에너지와 물질이라는 "두 고래에 의존"했다고 말할 수 있습니다. "세 번째 고래"는 이제 미립자, 원자 및 분자에서 가장 복잡한 생물학적 및 사회적 시스템의 기능에 이르기까지 세계에서 발생하는 모든 프로세스와 관련된 정보입니다.

당연히 질문이 생깁니다. 현대 과학의 최신 데이터가 생명과 생물 종의 기원에 대한 진화론 적 패러다임을 확인하거나 반박합니까?

이 질문에 답하기 위해서는 먼저 K. Shannon이 과학에 도입한 양적 척도를 반영하는 "정보"의 다면적 개념의 속성과 측면을 이해하는 것이 필요합니다.

정보량 측정을 사용하면 시스템 구조의 자기 조직화로 이어지는 주변 세계의 모든 자발적인 정보 축적 프로세스의 기초가 되는 정보-엔트로피 상호 작용의 일반적인 메커니즘을 분석할 수 있습니다.

동시에 정보-엔트로피 분석을 통해 진화론적 개념의 차이를 식별할 수 있습니다. 이는 생명의 기원과 생물학적 종의 문제를 고려하지 않고 단순한 자기 조직화 메커니즘으로 축소하려는 지지할 수 없는 시도에 지나지 않습니다. 이러한 수준의 복잡한 시스템은 해당 정보를 기반으로만 생성할 수 있다는 사실 , 원래 생성 이전 계획에 제시된 정보입니다.

유지된 현대 과학정보 시스템의 속성에 대한 연구는 모든 시스템이 상위 계층 수준에서 내려오는 규칙에 따라서만 형성될 수 있으며 이러한 규칙 자체가 원래 계획의 형태로 시스템 자체보다 먼저 존재했다고 주장할 모든 이유를 제공합니다(의 아이디어 창조).

CLAUD SHANNON은 무엇을 측정했습니까?

정보 이론은 기술 통신 채널을 통해 전송된 메시지에 포함된 새로운(예측할 수 없는) 및 중복(예측 가능한) 정보의 양을 계산하기 위해 K. Shannon이 제안한 방법을 기반으로 합니다.

정보의 양을 측정하기 위해 Shannon이 제안한 방법은 매우 보편적인 것으로 밝혀져 그 적용이 더 이상 순수한 기술 적용의 좁은 범위에 제한되지 않습니다.

통신 기술의 응용 문제의 한계를 넘어 자신이 제안한 방법의 성급한 확산에 대해 과학자들에게 경고한 K. Shannon 자신의 의견과는 달리 이 방법은 물리, 생물학 및 사회 시스템.

정보 현상의 본질과 정보 과정의 메커니즘에 대한 새로운 이해의 열쇠는 L. Brillouin이 확립한 정보와 물리적 엔트로피 간의 관계였습니다. Shannon이 통계 열역학에서 차용한 확률 엔트로피 함수를 사용하여 정보의 양을 계산할 것을 제안했기 때문에 이 관계는 원래 정보 이론의 기초에 놓였습니다.

많은 과학자들(K. Shannon 자신부터 시작)은 그러한 차용을 순전히 형식적인 장치로 간주하는 경향이 있었습니다. L. Brillouin은 Shannon에 따라 계산된 정보의 양과 물리적 엔트로피 사이에는 형식적이지 않고 의미 있는 관계가 있음을 보여주었습니다.

통계 물리학에서는 엔트로피의 확률적 함수를 사용하여 분자의 모든 상태(에너지, 속도)가 등확률에 접근하고 엔트로피가 최대값에 도달하는 열역학적 평형으로 이어지는 과정을 연구합니다.

정보 이론 덕분에 동일한 기능의 도움으로 예를 들어 서면 텍스트와 같이 최대 엔트로피 상태에서 멀리 떨어진 시스템을 조사할 수 있다는 것이 분명해졌습니다.

또 다른 중요한 결론은

엔트로피의 확률적 기능을 사용하여 완전한 혼돈 상태에서 시스템 전환의 모든 단계를 분석할 수 있습니다. 동등한 값확률과 엔트로피의 최대값, 요소의 유일한 가능한 상태에 해당하는 궁극적인 질서(엄격한 결정)의 상태까지.

이 결론은 기체, 결정체, 문자, 생물학적 유기체 또는 군집 등과 같은 자연계의 서로 다른 시스템에 대해서도 동일하게 적용되는 것으로 밝혀졌습니다.

동시에 기체 또는 결정의 경우 엔트로피를 계산할 때 미시 상태(즉, 원자 및 분자의 상태)와 이러한 시스템의 거시 상태(즉, 기체 또는 전체 결정)만 비교하면 다른 성격(생물학적, 지적, 사회적)의 시스템에 대해 엔트로피는 임의로 선택된 하나 또는 다른 수준에서 계산될 수 있습니다. 이 경우 고려중인 시스템의 계산 된 엔트로피 값과이 시스템의 주문 정도를 특징 짓고 엔트로피의 최대 값과 실제 엔트로피 값의 차이와 같은 정보의 양은 상태의 확률 분포에 따라 달라집니다 기본 수준의 요소, 즉 함께 이러한 시스템을 형성하는 요소.

다시 말해서,

시스템 구조에 저장된 정보의 양은 시스템 구조에서 보존된 질서로 인해 시스템이 평형 상태에서 벗어난 정도에 비례합니다.

그것을 의심하지 않고 Shannon은 세계에 존재하는 모든 시스템의 질서 정도를 평가하는 데 원칙적으로 적합한 보편적 척도로 과학을 무장했습니다 (모든 확률의 값이 공개 된 경우).

Shannon이 도입한 정보 측정을 다음과 같이 정의했습니다. 이동 순서의 척도, 다음을 고려하여 정보와 에너지 간의 관계를 설정할 수 있습니다. 에너지는 트래픽 강도의 척도입니다.. 동시에 시스템 구조에 저장된 정보의 양은 이러한 시스템 내부 연결의 총 에너지에 비례합니다.

발견과 동시에 공통 속성현상으로서의 정보에는 정보 시스템의 다양한 수준의 복잡성과 관련된 근본적인 차이점도 있습니다.

예를 들어 생물학적 물체와 달리 모든 물리적 물체에는 특별한 기억 기관, 외부 세계에서 오는 신호의 기록, 정보 통신 채널이 없습니다. 그들에 저장된 정보는 그대로 구조 전체에 "번짐"됩니다. 동시에 결정이 순서를 결정하는 내부 링크에 정보를 저장할 수 없다면 결정 구조를 기반으로 정보 처리를 위한 인공 기억 및 기술 장치를 만들 수 없습니다.

동시에 복잡한 정보 시스템을 구축하기 위해 수정의 기본 정보 속성을 사용할 수 있었던 사람의 마음 덕분에 그러한 장치의 생성이 가능해 졌다는 점을 고려해야합니다.

원생 동물문 생물학적 시스템그 복잡성은 인간이 만든 가장 진보된 정보 시스템을 능가합니다. 이미 가장 단순한 단세포 유기체 수준에서 번식에 필요한 가장 복잡한 정보 유전 메커니즘이 활성화되었습니다. 다세포 생물에서는 이외에도 정보 시스템유전에는 정보를 저장하고 처리하는 특수 기관이 있습니다(예: 외부 세계에서 들어오는 시각 및 청각 신호를 뇌로 보내기 전에 기록하는 시스템, 뇌에서 이러한 신호를 처리하는 시스템). 가장 복잡한 정보 통신 네트워크( 신경계) 전체 다세포 유기체에 침투하여 전체로 변형시킵니다.

정보와 엔트로피

정보의 개념을 논의하면서 또 다른 관련 개념인 엔트로피를 건드리지 않는 것은 불가능합니다. 처음으로 엔트로피와 정보의 개념은 K. Shannon에 의해 연결되었습니다.

클로드 엘우드 섀넌( 클로드 엘우드 섀넌), 1916-2001 - 미국 엔지니어이자 수학자 인 Thomas Edison의 먼 친척은 1941 년부터 1972 년까지 Bell Laboratories의 직원이었습니다. 그의 작품 "Mathematical Theory of Communication"(http://cm.bell-labs. 1948년에 출판된 com/cm/ms /what/shannonday/)는 모든 메시지의 정보 콘텐츠 측정과 정보 양자(bit)의 개념을 처음으로 결정했습니다. 이러한 아이디어는 현대 디지털 통신 이론의 기초를 형성했습니다. 1949년에 출판된 Shannon의 다른 저서인 "비밀 시스템의 통신 이론"은 암호학을 과학적 규율. 그는 창립자입니다. 정보 이론, 현대 하이테크 통신 시스템에서 응용 프로그램을 찾았습니다. Shannon은 "사이버네틱스"라는 개념으로 통합된 과학인 확률 체계 이론, 오토마타 이론 및 제어 시스템 이론에 큰 공헌을 했습니다.

엔트로피의 물리적 정의

처음으로 엔트로피의 개념은 시스템의 열역학적 상태의 함수로 1865년 Clausius에 의해 도입되었습니다.

여기서 Q는 열이고 T는 온도입니다.

엔트로피의 물리적 의미는 일로 변환될 수 없는 시스템의 내부 에너지의 일부로 나타납니다. 클라우지우스는 기체 실험을 통해 이 함수를 경험적으로 얻었습니다.

방법에 의한 L. Boltzmann(1872) 통계 물리학엔트로피에 대한 이론적 표현 도출

여기서 K는 상수입니다. W는 열역학적 확률(시스템의 거시 상태에 영향을 미치지 않는 이상 기체 분자의 순열 수)입니다.

볼츠만 엔트로피는 이상 기체에 대해 도출되었으며 시스템의 혼돈의 척도인 무질서의 척도로 취급됩니다. 이상 기체의 경우 Boltzmann과 Clausius의 엔트로피는 동일합니다. 볼츠만의 공식은 그의 무덤에 비문으로 새겨질 정도로 유명해졌습니다. 엔트로피와 혼돈은 하나이며 동일하다는 의견이 있습니다. 엔트로피는 단지 이상 기체, 더 복잡한 대상을 설명하는 데 무비판적으로 사용되기 시작했습니다.

1886년 볼츠만 자신. 생명이 무엇인지 설명하기 위해 엔트로피를 사용하려고 했습니다. Boltzmann에 따르면 생명은 엔트로피를 감소시킬 수 있는 현상입니다. Boltzmann과 그의 추종자들에 따르면 우주의 모든 과정은 혼돈의 방향으로 변화하고 있습니다. 우주는 열사병으로 향하고 있습니다. 이 우울한 예측은 오랫동안 과학을 지배했습니다. 그러나 주변 세계에 대한 지식의 심화는 점차 이 교리를 흔들었다.

고전은 엔트로피를 정보와 연관시키지 않았습니다..

정보의 척도로서의 엔트로피

"정보"의 개념은 종종 "정보"로 해석되며 정보 전송은 의사 소통을 통해 수행됩니다. K. Shannon은 엔트로피를 척도로 간주했습니다. 유용한 정보유선을 통한 신호 전송 과정에서.

엔트로피를 계산하기 위해 Shannon은 Boltzmann이 발견한 고전적인 엔트로피 표현과 유사한 방정식을 제안했습니다. 독립적인 무작위 사건을 고려합니다. 엑스 N개의 가능한 상태와 p i -i번째 상태의 확률. 그러면 사건의 엔트로피 엑스

이 양은 평균 엔트로피라고도 합니다. 예를 들어 자연어로 메시지를 전달하는 것에 대해 이야기할 수 있습니다. 다른 편지를 보낼 때 우리는 다른 양의 정보를 전달합니다. 문자당 정보의 양은 해당 언어로 구성된 모든 메시지에서 이 문자가 사용되는 빈도와 관련이 있습니다. 우리가 전송하는 편지가 희귀할수록 더 많은 정보가 포함됩니다.

Hi = Pi log 2 1/P i = -P i log 2 Pi ,

i번째 상태만을 특징짓는 개인 엔트로피라고 합니다.

예를 들어 설명하자. 동전을 던질 때 앞면이나 뒷면이 빠지면 던지기 결과에 대한 특정 정보입니다.

동전의 경우 등확률 가능성의 수는 N = 2입니다. 앞면(뒷면)을 얻을 확률은 1/2입니다.

주사위를 던질 때 특정 점수(예: 3점)의 손실에 대한 정보를 얻습니다. 언제 더 많은 정보를 얻을 수 있습니까?

주사위의 경우 등확률의 수는 N = 6입니다. 주사위에서 3점을 얻을 확률은 1/6입니다. 엔트로피는 2.58입니다. 가능성이 낮은 이벤트를 구현하면 더 많은 정보를 얻을 수 있습니다. 이벤트(동전 던지기, 주사위 던지기)에 대한 메시지를 받기 전에 불확실성이 클수록 메시지를 받을 때 더 많은 정보가 제공됩니다.

정보의 정량적 표현에 대한 이러한 접근 방식은 채택된 단위가 정보의 가치 및 의미와 같은 중요한 속성을 고려하지 않기 때문에 보편적이지 않습니다. 나중에 밝혀진 실제 객체에 대한 정보의 특정 속성(그 의미, 값)에서 추상화하여 식별이 가능해졌습니다. 일반적인 패턴정보. 정보의 양을 측정하기 위해 Shannon이 제안한 단위(비트)는 모든 메시지(아들의 탄생, 스포츠 경기 결과 등)를 평가하는 데 적합합니다. 그 후, 정보의 가치와 의미를 고려한 정보량 측정을 찾으려는 시도가 있었습니다. 그러나 보편성은 즉시 상실되었습니다. 프로세스마다 가치와 의미의 기준이 다릅니다. 또한 정보의 의미와 가치에 대한 정의는 주관적인 반면 Shannon이 제안한 정보의 척도는 객관적입니다. 예를 들어, 냄새는 동물에게는 엄청난 양의 정보를 전달하지만 인간에게는 파악하기 어렵습니다. 인간의 귀는 초음파 신호를 감지하지 못하지만 돌고래 등에 대한 많은 정보를 전달합니다. 따라서 Shannon이 제안한 정보 측정은 정보의 "취향"에 관계없이 모든 유형의 정보 프로세스를 연구하는 데 적합합니다. 소비자.

측정 정보

물리학의 과정에서 당신은 어떤 것의 가치를 측정하기 전에 물리량, 측정 단위를 입력합니다. 정보에는 이러한 단위가 있습니다. 비트이지만 "정보"개념의 정의에 대한 접근 방식에 따라 그 의미가 다릅니다.

정보 측정 문제에 대한 여러 가지 접근 방식이 있습니다.

미국의 시인이자 수필가인 John Perry Barlow는 “정보는 삶의 한 형태입니다.”라고 썼습니다. 실제로 우리는 "정보"라는 단어를 끊임없이 접하게 됩니다. 정보는 수신, 전송 및 저장됩니다. 일기 예보 또는 축구 경기 결과, 영화 또는 책의 내용, 전화 통화 등을 확인하십시오. 우리가 어떤 종류의 정보를 다루고 있는지 항상 분명합니다. 그러나 정보 자체는 무엇이며 가장 중요한 것은 측정 방법, 일반적으로 아무도 생각하지 않습니다. 한편, 정보와 그 전달 방식은 우리의 삶을 크게 좌우하는 중요한 요소이며, 정보 기술. Laba.Media의 과학 편집자 Vladimir Gubailovsky는 정보가 무엇인지, 어떻게 측정하는지, 왜 왜곡 없이 정보를 전달하는 것이 가장 어려운지 설명합니다.

우연한 사건의 공간

1946년 미국 통계학자 John Tukey는 20세기의 주요 개념 중 하나인 BIT(BIT, BInary digiT - "이진수" - "하이테크")라는 이름을 제안했습니다. Tukey는 값 0 또는 1을 취할 수 있는 단일 이진수를 표시하기 위해 비트를 선택했습니다. Claude Shannon은 그의 기조 연설 "The Mathematical Theory of Communication"에서 정보의 양을 비트로 측정할 것을 제안했습니다. 그러나 이것이 Shannon이 그의 논문에서 소개하고 탐구한 유일한 개념은 아닙니다.

양면이 앞면인 가짜 동전 하나를 던지는 무작위 사건의 공간을 상상해 보십시오. 독수리는 언제 쓰러지나요? 항상 분명합니다. 이것이 우리 공간이 배열되는 방식이기 때문에 우리는 이것을 미리 알고 있습니다. 앞면이 나오는 것은 특정 이벤트, 즉 확률이 1입니다. 떨어지는 앞면에 대해 말하면 얼마나 많은 정보를 보고할까요? 아니요. 이러한 메시지의 정보량은 0으로 간주합니다.

이제 올바른 동전을 던지자. 원래대로 한쪽에는 앞면이 있고 다른쪽에는 뒷면이 있습니다. 앞면 또는 뒷면을 얻는 것은 우리의 무작위 이벤트 공간을 구성하는 두 가지 다른 이벤트입니다. 한 번 던진 결과를보고하면 참으로 새로운 정보가 될 것입니다. 앞면에는 0을 보고하고 뒷면에는 1을 보고합니다. 이 정보를 보고하려면 1비트만 필요합니다.

무엇이 바뀌었나요? 우리 이벤트 공간에 불확실성이 나타났습니다. 우리는 스스로 동전을 던지지 않고 던진 결과를 보지 못하는 사람에게 그것에 대해 말할 것이 있습니다. 그러나 우리의 메시지를 제대로 이해하기 위해서는 우리가 무엇을 하고 있는지, 0과 1이 무엇을 의미하는지 정확히 알아야 하고, 이벤트 공간이 일치해야 하며, 디코딩 프로세스는 던진 결과를 명확하게 복구해야 합니다. 송수신의 이벤트 공간이 일치하지 않거나 메시지를 명확하게 디코딩할 가능성이 없으면 정보는 통신 채널에 노이즈만 남게 됩니다.

두 개의 동전을 독립적으로 동시에 던지면 앞면-머리, 앞면-꼬리, 뒷면-머리, 뒷면-꼬리의 네 가지 결과가 똑같이 나옵니다. 정보를 전송하려면 이미 2비트가 필요하고 메시지는 00, 01, 10, 11이 됩니다. 정보는 두 배가 되었습니다. 불확실성이 커졌기 때문이다. 이러한 이중 던지기의 결과를 추측하려고 하면 실수할 가능성이 두 배로 높아집니다.

이벤트 공간의 불확실성이 클수록 해당 상태에 대한 메시지에 더 많은 정보가 포함됩니다.

이벤트 공간을 약간 복잡하게 만들어 보겠습니다. 지금까지 일어난 모든 사건의 가능성은 동일했습니다. 그러나 실제 공간에서는 모든 사건이 동일한 확률을 갖는 것은 아닙니다. 우리가 보는 까마귀가 검은색일 확률이 1에 가깝다고 합시다. 길에서 처음 만나는 사람이 남자일 확률은 약 0.5입니다. 그러나 모스크바 거리에서 악어를 만나는 것은 거의 믿을 수 없는 일입니다. 직관적으로 우리는 악어와의 만남에 대한 메시지가 검은 까마귀에 대한 정보보다 훨씬 더 큰 정보 가치가 있음을 이해합니다. 이벤트 확률이 낮을수록 해당 이벤트에 대한 메시지의 정보가 더 많아집니다.

이벤트 공간이 너무 이국적이지 않도록하십시오. 우리는 그저 창가에 서서 지나가는 차들을 바라봅니다. 네 가지 색상의 자동차가 지나가므로 신고해야 합니다. 이를 위해 검은색 - 00, 흰색 - 01, 빨간색 - 10, 파란색 - 11의 색상을 인코딩합니다. 통과한 자동차를 보고하려면 2비트의 정보만 전송하면 됩니다.

그러나 꽤 오랜 시간 동안 자동차를 보면 자동차의 색상이 고르지 않게 분포되어 있음을 알 수 있습니다. 검은색 - 50%(1초마다), 흰색 - 25%(4분의 1), 빨간색과 파란색 - 각각 12.5%( 매 8). 그런 다음 전송된 정보를 최적화할 수 있습니다.

대부분의 자동차는 검은색이므로 검은색 - 0 - 가장 짧은 코드라고 하고 나머지는 모두 1부터 시작하도록 하자. 나머지 절반은 흰색 - 10, 나머지 색상은 11부터 시작하자. 빨간색 - 110, 파란색 - 111에 전화하십시오.

이제 자동차 색상에 대한 정보를 전달하면 더 조밀하게 인코딩할 수 있습니다.

Shannon에 따른 엔트로피

이벤트 공간이 n개의 서로 다른 이벤트로 구성되도록 합니다. 앞면이 두 개인 동전을 던질 때 정확히 하나의 이벤트가 있습니다. 하나의 올바른 동전을 던질 때-2, 두 개의 동전을 던지거나 자동차를 볼 때-4. 각 이벤트는 발생 확률에 해당합니다. 동전을 던질 때 앞면이 2개 있을 때 사건(앞면)이 하나만 있고 그 확률은 p1 = 1입니다. 올바른 동전을 던질 때 두 사건이 있고 확률은 동일하며 각각의 확률은 0.5입니다. p1 = 0.5, p2 = 0.5. 두 개의 정확한 동전을 던질 때, 네 가지 사건이 있고, 모두 확률은 동일하며 각각의 확률은 0.25입니다: p1 = 0.25, p2 = 0.25, p3 = 0.25, p4 = 0.25. 자동차를 관찰할 때 4가지 이벤트가 있으며 서로 다른 확률을 가집니다. 검은색 - 0.5, 흰색 - 0.25, 빨간색 - 0.125, 파란색 - 0.125: p1 = 0.5, p2 = 0.25, p3 = 0.125, p4 = 0.125.

이것은 우연이 아닙니다. Shannon은 세 가지 조건이 충족되는 방식으로 엔트로피(이벤트 공간의 불확실성 척도)를 선택했습니다.

  • 1확률이 1인 특정 사건의 엔트로피는 0입니다.
  • 두 독립 사건의 엔트로피는 이들 사건의 엔트로피의 합과 같습니다.
  • 모든 사건의 가능성이 같으면 엔트로피가 최대입니다.

이러한 모든 요구 사항은 이벤트 공간의 불확실성에 대한 우리의 생각과 상당히 일치합니다. 이벤트가 하나만 있는 경우(첫 번째 예) 불확실성이 없습니다. 사건이 독립적인 경우(합의 불확실성이 불확실성의 합과 같음) 그냥 합산됩니다(동전 2개 던지기의 예). 그리고 마지막으로 모든 사건의 발생 가능성이 동일하다면 시스템의 불확실성 정도는 최대입니다. 동전 2개를 던진 경우와 같이 4개의 사건이 일어날 확률은 모두 같으며 엔트로피는 2로 자동차의 경우보다 크며, 4개의 사건도 있지만 확률은 서로 다릅니다. 이 경우에는 엔트로피가 1.75입니다.

H 값은 정보, 선택 및 불확실성의 양을 측정하는 정보 이론에서 중심적인 역할을 합니다.

클로드 섀넌

클로드 엘우드 섀넌- 미국 엔지니어, 암호 분석가 및 수학자. "정보화 시대의 아버지"로 간주됩니다. 현대 하이테크 통신 시스템에 적용되는 정보 이론의 창시자. 그는 현재 현대 통신 기술의 기초를 형성하는 기본 개념, 아이디어 및 수학적 공식을 제공했습니다.

1948년에 그는 정보의 가장 작은 단위를 지칭하기 위해 "비트"라는 단어를 사용할 것을 제안했습니다. 그는 또한 그가 도입한 엔트로피가 전송된 메시지에 있는 정보의 불확실성 척도와 같다는 것을 증명했습니다. Shannon의 기사 "수학적 통신 이론" 및 "The Theory of Communication in Secret Systems"는 정보 이론 및 암호학의 기본으로 간주됩니다.

제2차 세계 대전 중에 Shannon은 Bell 연구소에서 암호화 시스템을 개발했으며, 나중에 이를 통해 오류 수정 코딩 방법을 발견했습니다.

Shannon은 "사이버네틱스" 개념에 포함된 과학 분야인 확률 체계 이론, 게임 이론, 오토마타 이론 및 제어 시스템 이론에 중요한 공헌을 했습니다.

코딩

던지는 동전도, 지나가는 차도 숫자 0과 1이 아니다. 공간에서 벌어지는 사건을 소통하기 위해서는 이 사건을 기술할 방법을 찾아야 한다. 이 설명을 인코딩이라고 합니다.

메시지를 무한정 인코딩할 수 있습니다. 다른 방법들. 그러나 Shannon은 가장 짧은 코드가 엔트로피보다 작은 비트일 수 없음을 보여주었습니다.

이것이 메시지의 엔트로피가 메시지의 정보를 측정하는 이유입니다. 모든 경우에 인코딩의 비트 수가 엔트로피와 같기 때문에 인코딩이 최적임을 의미합니다. 요컨대, 더 이상 우리 공간의 이벤트에 대한 메시지를 인코딩할 수 없습니다.

최적의 코딩을 사용하면 전송된 단일 비트가 메시지에서 손실되거나 왜곡될 수 없습니다. 적어도 하나의 비트가 손실되면 정보가 왜곡됩니다. 그러나 모든 실제 통신 채널은 메시지의 모든 비트가 왜곡되지 않고 수신자에게 도달할 것이라는 100% 확신을 주지 않습니다.

이 문제를 제거하려면 코드를 최적이 아닌 중복으로 만드는 것이 필요합니다. 예를 들어, 체크섬 메시지와 함께 전송하려면 메시지 코드를 변환하여 특별히 계산된 값이며 메시지를 수신할 때 재계산하여 확인할 수 있습니다. 전송된 체크섬이 계산된 체크섬과 일치하면 오류 없이 전송될 확률이 상당히 높아집니다. 체크섬이 일치하지 않으면 재전송을 요청해야 합니다. 예를 들어 인터넷을 통해 정보 패킷을 전송할 때 오늘날 대부분의 통신 채널이 작동하는 방식입니다.

자연어 메시지

자연어로 된 메시지로 구성된 이벤트 공간을 고려하십시오. 이것은 특별한 경우이지만 가장 중요한 것 중 하나입니다. 여기서 이벤트는 전송된 문자(고정 알파벳 문자)입니다. 이러한 문자는 확률이 다른 언어로 발생합니다.

가장 빈번한 기호(즉, 러시아어로 작성된 모든 텍스트에서 가장 자주 발견되는 기호)는 공백입니다. 두 번째로 자주 사용되는 기호는 "o"-90이고 다른 모음은 "e"(또는 "ё"- 구별하지 않음)-72, "a"-62, "i"-62 및 더 나아가 첫 번째 자음 "t"는 53입니다. 그리고 가장 희귀한 "f" - 이 기호는 1000자당 두 번만 나타납니다.

러시아어의 31자 알파벳을 사용합니다("e"와 "e", "b"와 "b"는 다르지 않습니다). 동일한 확률로 모든 문자가 언어에서 발견되면 문자당 엔트로피는 H = 5비트가 되지만 실제 문자 빈도를 고려하면 엔트로피는 H = 4.35비트로 낮아집니다. (이는 문자가 바이트(8비트)로 전송되는 기존 인코딩보다 거의 2배 적습니다.

그러나 언어에서 문자의 엔트로피는 훨씬 더 낮습니다. 다음 문자가 나타날 확률은 모든 텍스트에서 문자의 평균 빈도에 의해 전적으로 결정되지 않습니다. 뒤에 오는 문자는 이미 전송된 문자에 따라 다릅니다. 예를 들어, 현대 러시아어에서는 기호 "ъ" 뒤에 자음 기호가 올 수 없습니다. 두 개의 연속된 모음 "e" 다음에 세 번째 모음 "e"는 "long neck"이라는 단어를 제외하고는 극히 드뭅니다. 즉, 다음 문자는 다소 미리 결정됩니다. 이러한 다음 기호의 사전 결정을 고려하면 다음 기호의 불확실성(즉, 정보)은 4.35보다 훨씬 작을 것입니다. 일부 추정에 따르면 러시아어의 다음 문자는 언어 구조에 의해 50% 이상 미리 결정됩니다. 즉, 최적의 인코딩을 사용하면 메시지에서 문자의 절반을 삭제하여 모든 정보를 전송할 수 있습니다.

또 다른 것은 모든 글자가 고통없이 지워질 수는 없다는 것입니다. 예를 들어 고주파수 "o"(및 일반적으로 모음)는 지우기 쉽지만 드물게 "f" 또는 "e"는 상당히 문제가 됩니다.

우리가 서로 의사소통하는 데 사용하는 자연어는 매우 중복되므로 신뢰할 수 있습니다. 무언가를 놓친 경우에도 정보가 계속 전송되므로 걱정하지 마십시오.

그러나 Shannon이 정보 척도를 도입할 때까지 우리는 언어가 중복되고 어느 정도까지 메시지를 압축할 수 있는지(그리고 아카이버에 의해 텍스트 파일이 왜 그렇게 잘 압축되는지) 이해할 수 없었습니다.

자연어 중복

"텍스트 작성 방법에 대해"(제목이 정확히 그렇게 들립니다!) 기사에서 Ivan Turgenev의 소설 " 노블 네스트” 그리고 약간의 변환을 거쳤습니다. 문자의 34%가 조각에서 삭제되었지만 무작위는 아닙니다. 단어의 첫 글자와 마지막 글자만 남기고 전부 삭제한 것이 아니라 모음만 삭제했습니다. 목표는 변환된 텍스트에서 모든 정보를 복구할 수 있을 뿐만 아니라 이 텍스트를 읽는 사람이 문자 누락으로 인해 특별한 어려움을 겪지 않도록 하는 것이었습니다.

이 손상된 텍스트를 읽는 것이 상대적으로 쉬운 이유는 무엇입니까? 정말 들어있다 필요한 정보전체 단어를 복구합니다. 러시아어 원어민은 인식에 사용하는 일련의 특정 이벤트(단어 및 전체 문장)를 가지고 있습니다. 또한 캐리어는 정보를 복구하는 데 도움이 되는 표준 언어 구성을 마음대로 사용할 수 있습니다. 예를 들어, "그녀는 더 행복해"- 높은 확률로 다음과 같이 읽을 수 있습니다. "그녀는 더 예민했다". 하지만 한 마디 "그녀가 더 낫다", 오히려 다음과 같이 복원됩니다. "더 하얘졌다". 일상적인 의사 소통에서 우리는 소음과 간섭이 있는 채널을 다루기 때문에 정보 복구에 능숙하지만 이미 미리 알고 있는 정보만 복구합니다. 예를 들어, 문구 "그녀의 악마는 많이 타오르고 합쳐졌지만 유쾌하지 않습니다."마지막 단어를 제외하고는 잘 읽습니다. "splls" - "병합". 이 단어는 현대 사전에 없습니다. ~에 속독단어 "spls"그것은 "함께 붙어있는"것처럼 읽히며 느린 것은 당황합니다.

신호 디지털화

소리 또는 음향 진동은 정현파입니다. 예를 들어 이것은 사운드 편집기 화면에서 볼 수 있습니다. 소리를 정확하게 전달하려면 전체 정현파와 같은 무한한 수의 값이 필요합니다. 이것은 아날로그 연결로 가능합니다. 그는 노래합니다-듣고 노래가 지속되는 한 접촉이 중단되지 않습니다.

채널을 통한 디지털 통신에서는 제한된 수의 값만 전송할 수 있습니다. 이것은 소리가 정확하게 전달될 수 없다는 것을 의미합니까? 그렇지 않은 것으로 밝혀졌습니다.

다른 소리는 다르게 변조된 정현파입니다. 이산 값(주파수 및 진폭)만 전송하고 정현파 자체는 전송할 필요가 없습니다. 수신 장치에서 생성할 수 있습니다. 정현파를 생성하고 통신 채널을 통해 전송된 값에서 생성된 변조가 적용됩니다. 통신 채널에 대한 입력의 소리가 출력의 소리와 일치하도록 이산 값을 전송해야하는 정확한 원칙이 있습니다. 여기서 이러한 값은 일부 표준 정현파에 중첩됩니다 (이것은 단지 Kotelnikov 정리입니다 ).

Kotelnikov의 정리(영어 문학에서 Nyquist-Shannon 정리, 샘플링 정리)- 연속 및 불연속 신호와 관련되고 "0에서 f1까지의 주파수로 구성된 모든 함수 F(t)는 1/(까지 연속적인 숫자를 사용하여 모든 정확도로 지속적으로 전송할 수 있음)를 나타내는 디지털 신호 처리 분야의 기본 진술입니다. 2*f1)초.

노이즈 보정 코딩. 해밍 코드

Ivan Turgenev의 인코딩 된 텍스트가 신뢰할 수없는 채널을 통해 전송되면 특정 수의 오류가 있지만 완전히 의미있는 텍스트를 얻을 수 있습니다. 그러나 모든 것을 한 비트 내에 전송해야 한다면 문제는 해결되지 않을 것입니다. 오류는 무작위이기 때문에 어떤 비트가 잘못되었는지 알 수 없습니다. 체크섬도 항상 저장되는 것은 아닙니다.

그렇기 때문에 오늘날 네트워크를 통해 데이터를 전송할 때 최대 정보량을 채널에 밀어 넣을 수있는 최적의 코딩이 아니라 오류를 복원 할 수있는 코딩 (분명히 중복)을 위해 노력합니다. , 우리는 Ivan Turgenev의 단편을 읽을 때 단어를 복원했습니다.

실패 후 정보를 복구할 수 있는 특수 오류 수정 코드가 있습니다. 그중 하나가 해밍 코드입니다. 우리의 전체 언어가 111000, 001110, 100011의 세 단어로 구성되어 있다고 가정해 보겠습니다. 메시지의 출처와 수신자 모두 이 단어를 알고 있습니다. 그리고 우리는 통신 채널에서 오류가 발생한다는 것을 알고 있지만 한 단어를 전송할 때 1비트 이상의 정보가 왜곡되지 않습니다.

먼저 단어 111000을 전달한다고 가정합니다. 최대 하나의 오류(우리가 강조 표시한 오류)의 결과로 다음 단어 중 하나로 바뀔 수 있습니다.

1) 111000, 0 11000, 10 1000, 110 000, 1111 00, 11101 0, 111001 .

001110 단어가 전송되면 다음 단어 중 하나를 얻을 수 있습니다.

2) 001110, 1 01110, 01 1110, 000 110, 0010 10, 00110 0, 001111 .

마지막으로 100011에 대해 다음을 얻을 수 있습니다.

3) 100011, 0 00011, 11 0011, 101 011, 1001 11, 10000 1, 100010 .

세 목록 모두 쌍으로 분리되어 있습니다. 즉, 통신 채널의 다른 끝에 목록 1의 단어가 나타나면 수신자는 111000이라는 단어가 자신에게 전송되었음을 확실히 알고 목록 2의 단어가 나타나면 단어 001110, 목록 3의 단어는 단어 100011. 이 경우 우리 코드에서 하나의 버그를 수정했다고 가정합니다.

수정은 두 가지 요인으로 인해 발생했습니다. 첫째, 수신자는 전체 "사전"을 알고 있습니다.즉, 메시지 수신자의 이벤트 공간과 메시지 발신자의 이벤트 공간이 동일합니다. 단 한 번의 오류로 코드를 전송하자 사전에 없는 단어가 나왔다.

둘째, 사전의 단어는 특별한 방식으로 선택되었습니다.오류가 발생하더라도 받는 사람은 한 단어를 다른 단어와 혼동할 수 없습니다. 예를 들어 사전이 "daughter", "dot", "bump"라는 단어로 구성되어 있고 전송되었을 때 "vochka"로 판명되면 수신자는 그러한 단어가 존재하지 않는다는 것을 알고 수정할 수 없습니다. 오류 - 세 단어 중 하나가 올바른 것으로 판명될 수 있습니다. 사전에 "dot", "daw", "branch"가 포함되어 있고 하나 이상의 오류가 허용되지 않는다는 것을 알고 있다면 "vochka"는 분명히 "daw"가 아니라 "dot"입니다. 오류 수정 코드에서 단어는 오류 후에도 "인식 가능"한 방식으로 선택됩니다. 유일한 차이점은 코드 "알파벳"에는 0과 1의 두 글자만 있다는 것입니다.

이러한 인코딩의 중복성은 매우 크며 이러한 방식으로 전달할 수 있는 단어의 수는 상대적으로 적습니다. 결국 우리는 오류가 있는 경우 전송된 단어에 해당하는 전체 목록과 일치할 수 있는 단어를 사전에서 제외해야 합니다(예: "daughter" 및 "dot"라는 단어는 사전에 있을 수 없음). 그러나 메시지의 정확한 전송이 매우 중요하기 때문에 오류 수정 코드 연구에 많은 노력을 기울입니다.

감각

메시지의 엔트로피(또는 불확실성 및 예측 불가능성) 및 중복성(또는 예정 및 예측 가능성)의 개념은 정보의 척도에 대한 우리의 직관적인 생각과 매우 자연스럽게 일치합니다. 예측할 수 없는 메시지일수록(확률이 낮기 때문에 엔트로피가 클수록) 더 많은 정보를 전달합니다. 센세이션 (예 : Tverskaya에서 악어와의 만남)은 드문 이벤트이며 예측 가능성이 매우 작기 때문에 정보 가치가 높습니다. 종종 정보를 뉴스라고합니다. 방금 발생한 이벤트에 대한 메시지로 아직 아무것도 모릅니다. 그러나 거의 같은 단어로 두 번째와 세 번째 일어난 일에 대해 말하면 메시지의 중복성이 크고 예측 불가능 성이 0으로 떨어지고 단순히 듣지 않고 화자를 " 내가 알지." 그래서 언론이 1등이 되기 위해 그토록 애를 쓰는 것이다. 참으로 예상치 못한 뉴스를 낳는 것은 참신함의 직관적 감각에 대한 이러한 대응이며, 대중 독자를 위해 완전히 설계되지 않은 Shannon의 기사가 언론에 의해 포착된 센세이션이 되었다는 사실에 중요한 역할을 했습니다. 언어 학자와 문학 평론가에서 생물 학자에 이르기까지 다양한 전문 분야의 과학자들이 자연을 이해하는 보편적 인 열쇠로 받아 들였습니다.

하지만 Shannon의 정보 개념은 엄격한 수학적 이론입니다., 통신 이론 외부의 적용은 매우 신뢰할 수 없습니다. 그러나 의사소통 이론 자체에서는 중심적인 역할을 한다.

시맨틱 정보

정보의 척도로서 엔트로피의 개념을 도입한 Shannon은 무엇보다도 정보를 측정하고 채널 용량 또는 코딩 최적성과 같은 특성을 평가하기 위해 정보로 작업할 기회를 얻었습니다. 그러나 Shannon이 정보를 가지고 성공적으로 작업할 수 있게 한 주된 가정은 정보의 생성이 확률 이론의 관점에서 성공적으로 설명될 수 있는 무작위 과정이라는 가정이었습니다. 프로세스가 무작위가 아닌 경우, 즉 패턴을 따르는 경우(자연어에서 발생하는 것처럼 항상 명확한 것은 아님) Shannon의 추론을 적용할 수 없습니다. Shannon이 말하는 모든 것은 정보의 의미와 관련이 없습니다.

기호 (또는 알파벳 문자)에 대해 이야기하는 한 임의의 사건으로 생각할 수 있지만 언어 단어로 이동하자마자 상황이 극적으로 바뀝니다. 음성은 특별한 방식으로 구성된 프로세스이며 여기서 메시지 구조는 메시지가 전송되는 기호보다 중요하지 않습니다.

최근까지 우리는 텍스트의 의미를 측정하는 데 어떻게든 가까워지기 위해 아무것도 할 수 없는 것처럼 보였지만, 지난 몇 년상황이 바뀌기 시작했다. 그리고 이것은 주로 기계 번역, 텍스트 자동 추상화, 텍스트에서 정보 추출, 자연어로 보고서 생성 작업에 인공 신경망을 사용하기 때문입니다. 이 모든 작업에서 자연어에 포함된 의미 있는 정보의 변환, 인코딩 및 디코딩이 발생합니다. 그리고 점차 그러한 변환 중 정보 손실에 대한 아이디어가 있으므로 의미있는 정보의 척도에 대한 아이디어가 있습니다. 그러나 지금까지 Shannon의 정보 이론이 가진 명확성과 정확성은 이러한 어려운 작업에 아직 나타나지 않았습니다.

개념 엔트로피 1865년 R. Clausius가 열역학 분야에서 비가역적 에너지 소산의 척도를 결정하기 위해 처음 도입했습니다. 엔트로피는 정보 이론을 포함한 과학의 다양한 분야에서 결과가 다를 수 있는 모든 경험, 테스트의 불확실성을 측정하는 데 사용됩니다. 이러한 엔트로피의 정의는 깊은 내부 연결을 가지고 있습니다. 따라서 정보에 대한 아이디어를 바탕으로 통계 물리학의 가장 중요한 모든 조항을 추론할 수 있습니다. [베스. 물리학. 남: 라지 러시아 백과사전, 1998].

독립적인(동일하지 않은) 임의 이벤트에 대한 정보 이진 엔트로피 엑스와 함께 N가능한 상태(1에서 N, - 확률 함수)는 다음에서 계산됩니다. 섀넌의 공식:

이 값은 또한 평균 엔트로피메시지. Shannon 공식의 엔트로피는 평균 특성입니다. 수학적 기대분포 랜덤 변수.
예를 들어, 러시아어의 문장을 구성하는 일련의 문자에서 서로 다른 문자가 서로 다른 빈도로 나타나므로 일부 문자의 발생 불확실성이 다른 문자보다 적습니다.
1948년 Claude Shannon은 잡음이 많은 통신 채널을 통한 합리적인 정보 전송 문제를 조사하면서 통신을 이해하기 위한 혁신적인 확률론적 접근 방식을 제안하고 최초의 진정한 수학적 엔트로피 이론을 만들었습니다. 그의 놀라운 아이디어는 곧 확률의 개념을 사용하는 정보 이론의 발전에 기초가 되었습니다. 무작위성의 척도로서의 엔트로피 개념은 Shannon이 1948년 Bell System Technical Journal에 2부작으로 게재한 "A Mathematical Theory of Communication"이라는 기사에서 소개되었습니다.

확률이 같은 사건(특수한 경우)의 경우, 모든 옵션이 동일한 확률일 때 의존성은 고려되는 옵션의 수에만 남아 있으며 Shannon 공식은 크게 단순화되어 Hartley 공식과 일치합니다. 미국 엔지니어 랄프 하틀리 1928년 중 하나로 과학적 접근메시지 평가:

, 여기서 I는 전송된 정보의 양, p는 사건의 확률, N은 서로 다른(동등한) 메시지의 가능한 수입니다.

과제 1. 똑같이 일어날 수 있는 사건.
덱에는 36장의 카드가 있습니다. 덱에서 "에이스"의 초상화가 있는 카드를 가져왔다는 메시지에 얼마나 많은 정보가 포함되어 있습니까? "스페이드 에이스"?

확률 p1 = 4/36 = 1/9 및 p2 = 1/36. Hartley 공식을 사용하여 다음을 얻습니다.

답변: 3.17; 5.17비트
(두 번째 결과에서) 모든 맵을 인코딩하려면 6비트가 필요합니다.
또한 이벤트의 확률이 낮을수록 더 많은 정보를 포함한다는 결과에서 분명합니다. (이 속성은 단음)

작업 2. 불평등 이벤트
덱에는 36장의 카드가 있습니다. 이 중 "초상화"가 있는 12개의 카드. 차례로 카드 중 하나를 데크에서 가져와 초상화가 그려져 있는지 여부를 결정합니다. 카드는 덱으로 되돌립니다. 하나의 카드가 표시될 때마다 전송되는 정보의 양을 결정합니다.

정보 엔트로피- 특정 시스템(통계 물리학 또는 정보 이론에서)의 불확실성 또는 예측 불가능성에 대한 척도, 특히 기본 알파벳 기호의 출현에 대한 불확실성. 후자의 경우 정보 손실이 없으면 엔트로피는 전송된 메시지의 심볼당 정보량과 수치적으로 동일합니다.

예를 들어, 러시아어의 문장을 구성하는 일련의 문자에서 서로 다른 문자가 서로 다른 빈도로 나타나므로 일부 문자의 발생 불확실성이 다른 문자보다 적습니다. 문자의 일부 조합을 고려하면(이 경우 엔트로피에 대해 이야기합니다. n (\디스플레이스타일 n)순서, 참조)가 매우 드문 경우 불확실성이 훨씬 더 감소합니다.

정보 엔트로피의 개념은 Maxwell의 악마의 도움으로 설명할 수 있습니다. 정보와 엔트로피의 개념은 서로 깊은 관련이 있습니다. 어느?[ ] .

엔트로피- 통계적으로 독립적인 메시지를 생성하는 소스의 기본 메시지당 정보량입니다.

백과사전 유튜브

    1 / 5

    ✪ 엔트로피 이해

    ✪ 엔트로피란?

    ✪ 정보 엔트로피

    ✪ 엔트로피와 열역학 제2법칙(동영상 3) | 에너지| 생물학

    ✪ 엔트로피란? 제프 필립스 #TED-Ed

    자막

    따라서 상태 변수로 엔트로피에 대한 두 가지 정의를 제공했습니다. 엔트로피는 문자 S로 표시됩니다. 열역학적 정의에 따르면 엔트로피의 변화는 추가된 열을 해당 열이 추가된 온도로 나눈 값과 같습니다. 그러나 열이 추가됨에 따라 온도가 변하면(보통 발생하는 현상) 몇 가지 계산을 수행해야 합니다. 그리고 이것을 수학적, 통계적 또는 엔트로피의 조합적 정의로 생각할 수 있습니다. 이 정의에 따르면 엔트로피는 시스템이 취할 수 있는 상태 수의 자연 로그에 상수를 곱한 것과 같습니다. 그리고 그러한 경우 모든 상태는 동일한 확률을 갖습니다. 더 많은 수의 상태를 가질 수 있는 상상할 수 없을 정도로 많은 수의 분자에 대해 이야기하는 경우 거의 동일한 확률로 모두 다를 것이라고 가정할 수 있습니다. 약간 더 복잡한 정의도 있습니다. 순서가 다를 확률이 있지만 지금은 다루지 않겠습니다. 이제 이 두 가지 정의를 다루었으므로 이제 열역학 제2법칙에 대해 설명할 차례입니다. 여기 있습니다. 이것은 동시에 매우 광범위한 다양한 현상을 설명하는 매우 간단한 법칙입니다. 이 법칙에 따르면 모든 프로세스를 구현하는 동안 우주의 엔트로피 변화는 항상 0보다 크거나 같습니다. 즉, 우주에서 어떤 일이 발생하면 그 결과 엔트로피가 증가합니다. 이것은 매우 중요한 결론입니다. 이 법을 적용할 수 있는지 봅시다. 특정 상황따라서 그 의미를 이해합니다. 두 개의 탱크가 서로 연결되어 있다고 가정해 보겠습니다. 여기 T1이 있습니다. 이것이 우리의 뜨거운 탱크가 되게 하십시오. 그리고 여기에 T2가 있습니다. 이것은 차가운 탱크가 될 것입니다. 우리는 경험을 통해 알고 있습니다. 뜨거운 물이 담긴 그릇이 찬물이 담긴 그릇과 벽을 공유하면 어떻게 될까요? 그런 경우 어떻게 됩니까? 예, 물의 온도가 낮아집니다. 동일한 물질에 대해 이야기하는 경우 동일한 단계에 있으면 프로세스가 대략 중간에 중지됩니다. 따라서 우리는 더 뜨거운 물질에서 더 차가운 물질로 열이 전달되는 것을 다루고 있습니다. 더 뜨거운 물질에서 더 차가운 물질로 전달되는 열 Q가 있습니다. 물론 일상적인 현실에서는 더 차가운 물질에서 더 뜨거운 물질로 열이 전달되는 것을 볼 수 없습니다. 예를 들어 뜨거운 차에 각얼음을 넣으면 물론 얼음은 더 차가워지지 않고 차도 더 뜨거워지지 않습니다. 두 물질의 온도는 거의 같아집니다. 즉, 실제로 차가 열의 일부를 얼음에 줄 것입니다. 우리는 또한 두 개의 탱크에 대해 이야기하고 있으며 온도가 일정하다고 가정합니다. 이것은 둘 다 무한히 큰 경우에만 발생할 수 있으며 물론 현실 세계에는 존재하지 않습니다. 안에 현실 세계 T1은 감소하고 T2는 증가합니다. 하지만 열역학 제2법칙에 따라 이것이 일어나야 하는지 봅시다. 그래서 여기서 무슨 일이 일어나고 있습니까? T1의 순 엔트로피 변화는 얼마입니까? 열역학 제2법칙에 따르면 우주의 엔트로피 변화는 0보다 큽니다. 하지만 이 경우 T1의 엔트로피 변화에 엔트로피 변화를 더한 것과 같습니다. T1 대신에 그냥 1이라고 합시다... 시스템 1에 대해, 즉 여기서는 이 핫 시스템에 대해 시스템 2에 대한 엔트로피 변화를 더한 것입니다. 그러면 시스템 1에 대한 엔트로피 변화는 무엇입니까? 고온에서 Q1을 잃습니다. 마이너스 Q(시스템이 열을 발산하기 때문에)를 T1로 나눈 값입니다. 그런 다음 T2 시스템에 추가된 열을 고려해야 합니다. Q 나누기 T2를 더해 봅시다. 우리는 시스템 2의 엔트로피 변화를 얻습니다. 맞습니까? 온도가 1 더 높은 이 저장소는 열을 잃습니다. 그리고 온도 2가 낮은 저장소는 열을 받습니다. 0보다 크지 않을까요? 조금 생각해 봅시다. 나누면... 다시 쓰겠습니다... 다른 방식으로 쓰겠습니다: Q 나누기 T2, 빼기 이것을. 숫자를 재배열하는 중입니다... Q를 T1로 나눈 값을 뺀 것입니다. 그리고 지금 더 높은 점수는 무엇입니까? T2 또는 T1? 음, T1이 더 크죠? 이제 우리는 더 높은 점수를 얻었습니다... "높은"이라는 단어를 사용할 때 우리는 특정 비교를 의미합니다. 따라서 T1은 이 것 위에 있습니다. 게다가, 두 경우 모두 분자에서 우리는 같은 숫자를 가집니다, 그렇죠? 즉, 1/2 빼기 1/3을 취하면 0보다 큰 지표를 얻습니다. 이 지표는 분모가 더 크기 때문에 이 지표보다 큽니다. 더 큰 수로 나눕니다. 이것은 생각할 가치가 있습니다. Q를 이 숫자로 나눈 다음 Q를 더 큰 숫자로 나눈 값을 뺍니다. 그래서 여기 이 분수는 절대값이 더 낮을 것입니다. 그리고 그것은 0보다 클 것입니다. 따라서 열역학 제 2 법칙은 열이 뜨거운 몸체에서 차가운 몸체로 전달되는 우리의 관찰에 의해 확인됩니다. 이제 Sal, 당신이 틀렸다는 것을 증명할 수 있다고 말할 수 있습니다. 방에 에어컨을 설치하면 알 수 있습니다... 여기가 방이고 여기가 외부입니다. 그리고 당신은 말합니다-에어컨이 무엇을하는지보세요! 방 안은 이미 춥지만 밖은 이미 덥습니다. 그러나 에어컨은 무엇을합니까? 그것은 추위를 더 차갑게 만들고 뜨거움을 더 뜨겁게 만듭니다. 그는 약간의 Q를 받고 이 방향으로 움직입니다. 오른쪽? 차가운 방에서 열을 가져와 뜨거운 공기로 방출합니다. 그리고 당신은 그것이 열역학 제2법칙을 위반한다고 말합니다. 당신은 그것을 반박했습니다. 당신은 자격이 노벨상! 그러나 나는 당신에게 말할 것입니다 - 당신은 하나의 작은 사실을 잊고 있습니다. 이 에어컨 내부에는 압축기와 엔진이 활발하게 작동하며 그러한 결과를 만들어내고 있습니다. 분홍색으로 강조 표시할 이 엔진도 열을 방출합니다. 그것을 Q 엔진이라고 부릅시다. 따라서 전체 우주에 대해 생성된 총 엔트로피를 계산하려면 냉장실의 엔트로피에 거리의 엔트로피 변화를 더한 값이 됩니다. 냉장실 엔트로피 + 실외 엔트로피 변화. 여기에 방을 표시해 봅시다... 당신은 말할 수 있습니다 - 알겠습니다. 열을 발산하는 방의 엔트로피 변화는 ... 방이 적어도 1밀리초 동안 일정한 온도를 유지한다고 가정해 봅시다. 방은 특정 ​​온도 T1에서 약간의 Q를 발산합니다. 그런 다음... 여기에 마이너스를 입력해야 합니다... 그러면 거리는 특정 온도 T2에서 약간의 열을 받습니다. 그리고 당신은 말합니다: 이 수치는 이것보다 적습니다. 분모가 더 높기 때문입니다. 그러면 음의 엔트로피가 될 것이고 이것은 열역학 제2법칙에 위배된다고 말할 수 있습니다. 아니요! 여기서 우리는 한 가지 더 고려해야 할 사항이 있습니다. 거리도 엔진에서 열을 받는다는 것입니다. 엔진에서 나오는 열을 외부 온도로 나눈 값입니다. 그리고 저는 이 변수가, 지금 당장 수치를 제시하지는 않겠지만, 이 전체 표현을 긍정적으로 만들 것이라고 보장합니다. 이 변수는 우주의 총 순 엔트로피를 양의 값으로 바꿉니다. 이제 용어의 관점에서 엔트로피가 무엇인지 조금 생각해 봅시다. 화학 수업에서 교사가 엔트로피가 무질서와 같다고 말하는 것은 드문 일이 아닙니다. 실수가 아닙니다. 엔트로피는 무질서와 같습니다. 엔트로피는 실제로 무질서이기 때문에 이것은 실수가 아니지만 무질서의 정의에 매우 주의해야 합니다. 가장 일반적인 예 중 하나는 깨끗한 방을 가져가는 것입니다. 침실이 깨끗하지만 더러워진다고 가정해 보겠습니다. 그리고 그들은 말합니다-보세요, 우주는 더 무질서해졌습니다. 더러운 방은 깨끗한 방보다 더 어수선합니다. 그러나 이것은 엔트로피의 증가가 아닙니다. 따라서 이것은 그다지 좋은 예가 아닙니다. 왜? 예, 깨끗하고 더러운 것은 방의 상태일 뿐이기 때문입니다. 그리고 우리는 엔트로피가 상태의 매크로 변수라는 것을 기억합니다. 당신은 그것을 위해 그것을 사용 시스템 설명여기 앉아서 각 입자가 하는 일을 정확히 말해 줄 기분이 아닐 때. 그리고 각 입자가 무엇을 하는지 알려주는 데 걸리는 시간을 보여주는 매크로 변수입니다. 이 변수는 이 경우 얼마나 많은 상태가 있는지 또는 내가 당신으로부터 받고 싶은 상태에 대한 정보의 양을 나타냅니다. 클린 룸과 더티 룸의 경우 같은 룸의 두 가지 다른 상태만 있습니다. 방이 같은 온도로 유지되고 같은 수의 분자가 있으면 같은 엔트로피를 갖게 됩니다. 따라서 방이 더러워지면 엔트로피가 증가하지 않습니다. 예를 들어, 더러운 냉장실이 있습니다. 내가 이 방에 들어와 청소에 많은 노력을 기울였다고 가정해 봅시다. 그래서 나는 시스템에 열의 일부를 추가하고 내 땀 분자가 방 전체에 흩어집니다. 그에 따라 더 많은 내용물이 있고 따뜻해져 땀방울이있는 뜨겁고 깨끗한 방으로 변합니다. 이 내용물은 여러 가지 방법으로 배열될 수 있고 방이 덥기 때문에 그 안의 각 분자는 더 많은 상태를 취할 수 있습니다. 그렇죠? 평균 운동 에너지가 높기 때문에 각 분자가 가질 수 있는 운동 에너지의 양을 알아내려고 할 수 있으며, 포텐셜에서 이 양은 상당히 클 수 있습니다. 본질적으로 이것은 엔트로피의 증가입니다. 더럽고 차가운 방에서 뜨겁고 깨끗한 방으로. 그리고 그것은 우리가 알고 있는 것과 꽤 잘 맞습니다. 즉, 방에 들어가서 청소를 시작하면 따뜻함을 가져옵니다. 그리고 우주는 점점 더... 엔트로피가 증가하고 있다고 말할 수 있을 것 같습니다. 여기서 혼란은 어디에 있습니까? 내가 공을 가지고 있고 그것이 땅을 치고 그것을 쳤다고 가정 해 봅시다. 그리고 여기서 우리는 열역학 제1법칙이 발견된 이후 끊임없이 제기되어 온 질문을 던져야 합니다. 공이 땅에 닿자마자... 공이 땅에 닿는거 맞죠? 나는 그것을 던졌다 : 그것의 윗부분에는 특정한 잠재적 에너지가 있는데, 운동 에너지, 공이 땅에 닿은 다음 멈춥니다. 이것은 완전히 논리적 인 질문이 발생하는 곳입니다. 이 모든 에너지에 무슨 일이 일어 났습니까? 에너지 보존 법칙. 그녀는 모두 어디로 갔습니까? 땅에 떨어지기 직전에 공은 운동 에너지를 가지고 있다가 멈췄다. 에너지가 사라진 것 같습니다. 하지만 그렇지 않습니다. 공이 떨어지면 많은 것이 있습니다 ... 아시다시피 모든 것이 고유 한 따뜻함을 가지고 있습니다. 그러나 지구는 어떻습니까? 분자는 특정 운동 에너지와 위치 에너지로 진동했습니다. 그리고 우리 공의 분자가 약간 진동하기 시작했습니다. 하지만 그들의 움직임은 대부분 하향이었죠? 대부분의 공 분자의 움직임은 아래쪽을 향했습니다. 공이 지면에 닿으면... 지면에 닿는 공의 표면을 그려보겠습니다. 앞 부분에 있는 공의 분자는 이렇게 보일 것입니다. 그리고 그들 중 상당수가 있습니다. 이것 단단한. 아마도 격자 구조일 것입니다. 그리고 공이 땅에 닿습니다. 이런 일이 발생하면… 지구는 또 다른 고체입니다… 무슨 일이 일어날 것? 이 분자들은 이것들과 상호 작용하고 아래쪽으로 운동 에너지를 전달할 것입니다... 그들은 그것을 지구의 이러한 입자로 옮길 것입니다. 그리고 그들을 대면하십시오. 예를 들어 이 입자가 이 입자와 충돌하면 이 방향으로 이동할 수 있습니다. 그리고 이 입자는 이렇게 앞뒤로 진동하기 시작할 것입니다. 여기 있는 이 입자는 이 입자에서 튕겨져 이 방향으로 이동한 다음 이 입자와 충돌하여 여기로 이동할 수 있습니다. 그리고 여기 이 입자가 여기를 때리기 때문에 이것도 여기를 때리고 이것이 여기를 때리기 때문에 이것도 여기를 때립니다. 공의 관점에서 볼 때 상대적으로 방향성 있는 움직임이 있지만 지구의 분자와 접촉하게 되면 운동 에너지를 생성하기 시작하여 다양한 방향으로 움직임을 생성합니다. 여기 있는 이 분자는 여기로 움직이고 이것은 여기로 움직일 것입니다. 이제 분자가 너무 많으면 움직임이 지시되지 않습니다 ... 다른 색으로 표시하겠습니다 ... 음, 분자가 많고 모두 정확히 같은 방향으로 움직이면 마이크로 상태는 다음과 같이 보일 것입니다. 거시 국가. 몸 전체가 이 방향을 향하게 됩니다. v가 많고 모두 다른 방향으로 움직이면 내 공 전체가 제자리에 유지됩니다. 같은 양의 운동 에너지를 가질 수 있습니다. 분자 수준 , 그러나 그들은 모두 서로 충돌합니다. 그리고 이 경우 운동 에너지를 내부 에너지 또는 평균 운동 에너지인 온도로 설명할 수 있습니다. 따라서 우리가 세상이 점점 더 혼란스러워지고 있다고 말할 때 우리는 분자의 속도나 에너지의 순서에 대해 생각하고 있습니다. 주문하기 전에 분자가 약간 진동할 수 있지만 대부분은 떨어집니다. 그러나 그들이 땅에 닿으면 모두 즉시 다른 방향으로 조금 더 진동하기 시작합니다. 그리고 지구도 다른 방향으로 진동하기 시작합니다. 따라서 미시 상태 수준에서 상황이 훨씬 더 복잡해집니다. 또 다른 흥미로운 질문이 있습니다. 또 다른 가능성이 있습니다. “봐, 이 공이 떨어져서 땅에 떨어졌어. 왜 그는 단지--지구의 분자들 자체가 그들의 순서를 바꾸어서 공의 분자들을 적절하게 때릴 수 있지 않을까요? 임의의 움직임으로 인해 어느 시점에서 지구의 모든 분자가 공의 분자와 충돌하여 공이 다시 튀어오를 가능성이 있습니다. 예 그렇습니다. 이것이 일어날 가능성은 항상 극소수입니다. 공이 그냥 바닥에 놓일 가능성이 있습니다... 꽤 흥미롭습니다... 이런 일이 발생한다면 아마 1억 년을 기다려야 할 것입니다... 그리고 공이 그냥 튀다. 이 분자들이 1초 동안 순서대로 무작위로 진동한 다음 공이 튀는 가능성은 매우 적습니다. 하지만 그럴 확률은 거의 0입니다. 따라서 사람들이 질서와 무질서에 대해 이야기할 때 무질서가 증가합니다. 이제 이 분자들이 다른 방향으로 움직이고 더 많은 잠재적인 상태를 취하기 때문입니다. 그리고 우리는 그것을 보았다. 아시다시피 엔트로피는 특정 수준에서 마법처럼 보이지만 다른 수준에서는 상당히 논리적으로 보입니다. 한 영상에서... 그게 마지막 영상이었던 것 같아요... 저는 분자가 많았고 바로 여기에 여분의 공간이 있었고 그 후에 벽을 제거했습니다. 그리고 우리는 이 분자들이... 이전에 이 벽에서 튕겨져 나온 분자들이 있었다는 것이 분명합니다. 왜냐하면 그것에 관련된 특정한 압력이 있었기 때문입니다. 그런 다음 이 벽을 제거하자마자 충돌했을 분자는 계속 움직일 것입니다. 그들을 막을 것은 아무것도 없습니다. 이동은 이 방향으로 수행됩니다. 그들은 다른 분자 및 이러한 벽과 충돌할 수 있습니다. 그러나이 방향에 관한 한, 특히 이러한 분자에 대한 충돌 확률은 기본적으로 0입니다. 따라서 용기가 팽창하고 채워질 것입니다. 따라서 모든 것이 매우 논리적입니다. 하지만 가장 중요한 것은 이 비디오에서 본 것처럼 열역학 제2법칙도 같은 것을 말합니다. 즉, 분자가 이동하여 용기를 채울 것입니다. 그리고 그것들이 모두 정돈된 상태로 돌아갈 가능성은 거의 없습니다. 물론 무작위로 이동하여 이 위치로 돌아올 가능성이 있습니다. 그러나이 확률은 매우 매우 작습니다. 게다가 저는 이것을 강조하고 싶습니다. S는 매크로 상태입니다. 우리는 단일 분자와 관련된 엔트로피에 대해 이야기하지 않습니다. 개별 분자가 무엇을 하는지 알면 엔트로피에 대해 걱정할 필요가 없습니다. 우리는 시스템 전체에 대해 생각해야 합니다. 따라서 전체 시스템을 보고 분자를 무시하면 실제로 무슨 일이 일어났는지 알 수 없습니다. 이 경우 분자의 통계적 특성에만 주의를 기울일 수 있습니다. 우리는 얼마나 많은 분자를 가지고 있고, 그들의 온도는 얼마이며, 거시 역학, 압력... 그리고 당신은 무엇을 알고 있습니까? 이러한 분자가 들어 있는 용기는 벽이 있는 작은 용기보다 더 많은 상태를 가집니다. 갑자기 모든 분자가 여기에 무작위로 모이더라도 미세 상태를 보지 않기 때문에 이런 일이 발생했는지 알 수 없습니다. 그리고 이것은 명심하는 것이 매우 중요합니다. 누군가 더러운 방이 깨끗한 방보다 엔트로피가 더 높다고 말할 때 우리는 그들이 미시적 상태에 대해 이야기하고 있음을 이해해야 합니다. 그리고 엔트로피는 우선 거시 상태와 관련된 개념입니다. 방에는 일정량의 엔트로피가 있다고 간단하게 말할 수 있습니다. 즉, 엔트로피의 개념은 방 전체와 관련이 있지만 방에서 정확히 무슨 일이 일어나고 있는지 모를 때만 유용합니다. 당신은 단지 가장 일반적인 생각방이 무엇으로 채워져 있는지, 그 안의 온도가 얼마인지, 어떤 압력이 있는지. 이들은 모두 일반적인 매크로 속성입니다. 엔트로피는 이 매크로 시스템이 얼마나 많은 거시 상태를 가질 수 있는지 알려줍니다. 또는 결국 정보 엔트로피의 개념이 얼마나 많은 정보인지, 적절한 순간에 시스템의 미시 상태에 대한 정확한 아이디어를 얻을 수 있도록 내가 제공해야 하는 정보의 양입니다. 그렇게. 이 토론이 여러분에게 도움이 되었고 엔트로피에 대한 몇 가지 오해가 해소되었으며 엔트로피가 실제로 무엇인지에 대한 아이디어를 얻는 데 도움이 되었기를 바랍니다. 다음 영상까지!

공식적인 정의

정보 제공 이진 엔트로피독립적인 랜덤 이벤트 x (\디스플레이스타일 x)와 함께 n (\디스플레이스타일 n)확률로 분포된 가능한 상태( 나는 = 1, . . . , n (\displaystyle i=1,...,n))는 다음 공식으로 계산됩니다.

H(x) = − ∑ i = 1n pi log 2 ⁡ pi . (\displaystyle H(x)=-\sum _(i=1)^(n)p_(i)\log _(2)p_(i).)

이 값은 또한 평균 메시지 엔트로피. 값 H i = − log 2 ⁡ pi (\displaystyle H_(i)=-\log _(2)(p_(i)))~라고 불리는 개인 엔트로피특성화 만 i (\디스플레이스타일 i)-사유지. 일반적으로 엔트로피 정의에서 로그의 밑은 1보다 클 수 있습니다. 그것의 선택은 엔트로피 단위를 결정합니다. 따라서 종종(예를 들어 수학 통계 문제에서) 자연 로그를 사용하는 것이 더 편리할 수 있습니다.

따라서 시스템의 엔트로피 x (\디스플레이스타일 x)숫자가 있는 상태(이벤트) 발생의 모든 상대 빈도의 반대 부호가 있는 합계입니다. i (\디스플레이스타일 i), 자체 이진 로그를 곱합니다. 불연속 무작위 사건에 대한 이 정의는 공식적으로 다음과 같이 확장될 수 있습니다. 연속 분포확률의 밀도 분포에 의해 주어지지만 결과 함수는 다소 다른 속성을 갖습니다(미분 엔트로피 참조).

Shannon에 따른 정의

Shannon의 엔트로피의 정의는 열역학적 엔트로피의 개념과 연결됩니다. Boltzmann과 Gibbs는 훌륭한 일을했습니다. 통계 열역학, 정보 이론에서 "엔트로피"라는 단어의 채택에 기여했습니다. 열역학적 엔트로피와 정보 엔트로피 사이에는 연관성이 있습니다. 예를 들어 Maxwell의 악마는 또한 정보의 열역학적 엔트로피를 대조하며 정보의 양을 얻는 것은 엔트로피를 잃는 것과 같습니다.

자신의 정보를 이용한 정의

확률 변수의 분포 개념을 먼저 도입하여 확률 변수의 엔트로피를 결정하는 것도 가능합니다. X (\디스플레이스타일 X), 한정된 수의 값이 있습니다.

P X (xi) = pi , pi ≥ 0 , i = 1 , 2 , … , n (\displaystyle P_(X)(x_(i))=p_(i),\quad p_(i)\geqslant 0,\ ;i=1,\;2,\;\ldots ,\;n) ∑ i = 1n pi = 1 (\displaystyle \sum _(i=1)^(n)p_(i)=1) I(X) = − 로그 ⁡ P X(X) . (\displaystyle I(X)=-\log P_(X)(X).)

그런 다음 엔트로피는 다음과 같이 정의됩니다.

H(X) = E(I(X)) = − ∑ i = 1np(i) log ⁡p(i) . (\displaystyle H(X)=E(I(X))=-\sum _(i=1)^(n)p(i)\log p(i).)

정보량과 엔트로피의 측정 단위는 로그의 밑수(bit, nat, trit 또는 hartley)에 따라 다릅니다.

속성

엔트로피는 데이터 소스에 대한 확률 모델의 맥락에서 정의된 양입니다. 예를 들어, 동전 던지기에는 엔트로피가 있습니다.

− 2 (1 2 log 2 ⁡ 1 2) = − log 2 ⁡ 1 2 = log 2 ⁡ 2 = 1 (\displaystyle -2\left((\frac (1)(2))\log _(2)( \frac (1)(2))\right)=-\log _(2)(\frac (1)(2))=\log _(2)2=1)던지기 당 비트(독립적이라고 가정) 및 숫자 가능한 상태같음: 2 1 = 2 (\displaystyle 2^(1)=2) 가능한 상태(의미) ("독수리" 및 "꼬리").

문자 "A"로만 구성된 문자열을 생성하는 소스는 엔트로피가 0입니다. − ∑ i = 1 ∞ log 2 ⁡ 1 = 0 (\displaystyle -\sum _(i=1)^(\infty )\log _(2)1=0), 그리고 수량 가능한 상태같음: 2 0 = 1 (\디스플레이스타일 2^(0)=1) 가능한 상태(값) ("A")이며 로그의 밑수에 의존하지 않습니다.
이것은 또한 고려해야 할 정보입니다. 엔트로피가 0인 비트를 사용하는 저장 장치의 예 정보량 1과 같다 가능한 상태, 즉. 0이 아닌 값은 ROM에 기록된 데이터 비트이며 각 비트에는 하나만 있습니다. 가능한 상태.

예를 들어, 엔트로피가 영어 텍스트는 문자당 1.5비트와 같으며 물론 텍스트마다 다를 수 있습니다. 데이터 소스의 엔트로피 정도는 최적의 인코딩으로 정보 손실 없이 암호화하는 데 필요한 데이터 요소당 평균 비트 수를 의미합니다.

  1. 일부 데이터 비트는 정보를 전달하지 못할 수 있습니다. 예를 들어 데이터 구조는 종종 중복 정보를 저장하거나 데이터 구조의 정보와 관계없이 동일한 섹션을 포함합니다.
  2. 엔트로피의 양은 항상 비트의 정수로 표현되는 것은 아닙니다.

수학적 속성

  1. 비부정성: H(X) ⩾ 0 (\displaystyle H(X)\geqslant 0).
  2. 한정: H (X) = − E (log 2 ⁡ pi) = ∑ i = 1n pi log 2 ⁡ 1 pi = ∑ i = 1n p i f (gi) ⩽ f (∑ i = 1n p i g i) = log 2 ⁡ n (\displaystyle H(X)=-E(\log _(2)p_(i))=\sum _(i=1)^(n)p_(i)\log _(2)(\frac (1)(p_ (i)))=\sum _(i=1)^(n)p_(i)f(g_(i))\leqslant f\left(\sum _(i=1)^(n)p_(i )g_(i)\right)=\log_(2)n), 오목 함수에 대한 Jensen 부등식에서 다음 f (g i) = log 2 ⁡ g i (\displaystyle f(g_(i))=\log _(2)g_(i))그리고 g i = 1 pi (\displaystyle g_(i)=(\frac (1)(p_(i)))). 모두 n (\디스플레이스타일 n)요소 X (\디스플레이스타일 X)확률, H (X) = log 2 ⁡ n (\displaystyle H(X)=\log _(2)n).
  3. 그렇다면 독립 H (X ⋅ Y) = H (X) + H (Y) (\displaystyle H(X\cdot Y)=H(X)+H(Y)).
  4. 엔트로피는 요소 확률 분포의 상향 볼록 함수입니다.
  5. 만약에 X , Y (\displaystyle X,\;Y)요소의 확률 분포가 동일하면 H (X) = H (Y) (\displaystyle H(X)=H(Y)).

능률

알파벳은 균일하지 않은 확률 분포를 가질 수 있습니다. 원래 알파벳이 포함된 경우 n (\디스플레이스타일 n)그러면 확률 분포가 균일한 "최적화된 알파벳"과 비교할 수 있습니다. 원본과 최적화된 알파벳의 엔트로피 비율은 능률백분율로 표시할 수 있는 원본 알파벳입니다. 원래 알파벳의 효율성 n (\디스플레이스타일 n)문자는 다음과 같이 정의할 수도 있습니다. n (\디스플레이스타일 n)-항 엔트로피.

엔트로피는 이론적으로 일반적인 집합 또는 실제로 Huffman 코딩, Lempel-Ziv-Welch 코딩 또는 산술 코딩을 사용하여 실현할 수 있는 가능한 최대 무손실(또는 거의 무손실) 압축을 제한합니다.

변형 및 일반화

-항 엔트로피

일반적으로 -항 엔트로피(어디 2, 3, ...) 소스와 같음 S = (S , P) (\displaystyle (\mathcal (S))=(S,\;P))원래 알파벳으로 S = ( a 1 , … , an ) (\displaystyle S=\(a_(1),\;\ldots ,\;a_(n)\))그리고 이산 분포확률 P = ( p 1 , … , p n ) , (\displaystyle P=\(p_(1),\;\ldots ,\;p_(n)\),)어디 파이 (\displaystyle p_(i))확률( p i = p (ai) (\displaystyle p_(i)=p(a_(i))))는 다음 공식에 의해 결정됩니다.

H b (S) = − ∑ i = 1n pi log b ⁡ pi . (\displaystyle H_(b)((\mathcal (S)))=-\sum _(i=1)^(n)p_(i)\log _(b)p_(i).)

특히, 언제 b = 2 (\디스플레이스타일 b=2), 비트 단위로 측정되는 일반적인 이진 엔트로피를 얻습니다. ~에 b = 3 (\디스플레이스타일 b=3), 우리는 trit로 측정된 3진수 엔트로피를 얻습니다(하나의 trit는 3개의 등확률 상태를 가진 정보 소스를 가짐). ~에 b = e (\디스플레이스타일 b=e), 우리는 nats로 측정된 정보를 얻습니다.

조건부 엔트로피

알파벳 문자의 순서가 독립적이지 않은 경우(예: 프랑스어에서 문자 "q" 뒤에는 거의 항상 "u"가 오고 소련 신문에서 "지도자"라는 단어 뒤에 "생산" 또는 "노동"이라는 단어가 옵니다. 일반적으로 따랐다), 그러한 기호의 시퀀스(따라서 엔트로피)가 전달하는 정보의 양은 분명히 더 적습니다. 조건부 엔트로피는 이러한 사실을 설명하는 데 사용됩니다.

조건부 엔트로피 1차(1차 Markov 모델과 유사)는 알파벳의 엔트로피라고 하며, 여기서 한 문자가 차례로 나타날 확률(즉, 두 문자 조합의 확률)이 알려져 있습니다.

H 1 (S) = − ∑ i pi ∑ j pi (j) log 2 ⁡ pi (j) , (\displaystyle H_(1)((\mathcal (S)))=-\sum _(i)p_(i) \sum _(j)p_(i)(j)\log _(2)p_(i)(j),)

어디 i (\디스플레이스타일 i)선행 문자에 의존하는 상태이고, 파이 (j) (\displaystyle p_(i)(j))확률이다 j (\디스플레이스타일 j)제공 i (\디스플레이스타일 i)이전 캐릭터였습니다.

예를 들어, 문자 "ё"가 없는 러시아어의 경우 H 0 = 5 , H 1 = 4.358 , H 2 = 3 , 52 , H 3 = 3 , 01 (\displaystyle H_(0)=5,\;H_(1)=4(,)358,\;H_( 2)=3(,)52,\;H_(3)=3(,)01) .

부분 및 일반 조건부 엔트로피는 잡음이 있는 채널에서 데이터 전송 중 정보 손실을 완전히 설명합니다. 이를 위해 소위 채널 매트릭스. 소스 측의 손실을 설명하기 위해(즉, 전송된 신호가 알려져 있음) 기호가 전송된 경우 수신기가 기호를 수신할 조건부 확률을 고려합니다. a i (\displaystyle a_(i)). 이 경우 채널 매트릭스의 형식은 다음과 같습니다.

b 1 (\디스플레이스타일 b_(1)) b 2 (\디스플레이스타일 b_(2)) b j (\디스플레이스타일 b_(j)) b m (\displaystyle b_(m))
a 1 (\displaystyle a_(1)) p (b 1 ∣ a 1) (\displaystyle p(b_(1)\mid a_(1))) p (b 2 ∣ a 1) (\displaystyle p(b_(2)\mid a_(1))) p (b j ∣ a 1) (\displaystyle p(b_(j)\mid a_(1))) p (b m ∣ a 1) (\displaystyle p(b_(m)\mid a_(1)))
a 2 (\displaystyle a_(2)) p (b 1 ∣ a 2) (\displaystyle p(b_(1)\mid a_(2))) p (b 2 ∣ a 2) (\displaystyle p(b_(2)\mid a_(2))) p (b j ∣ a 2) (\displaystyle p(b_(j)\mid a_(2))) p (b m ∣ a 2) (\displaystyle p(b_(m)\mid a_(2)))
a i (\displaystyle a_(i)) p (b 1 ∣ a i) (\displaystyle p(b_(1)\mid a_(i))) p (b 2 ∣ a i) (\displaystyle p(b_(2)\mid a_(i))) p (b j ∣ a i) (\displaystyle p(b_(j)\mid a_(i))) p (b m ∣ a i) (\displaystyle p(b_(m)\mid a_(i)))
am (\displaystyle a_(m)) p (b 1 ∣ am) (\displaystyle p(b_(1)\mid a_(m))) p (b 2 ∣ am) (\displaystyle p(b_(2)\mid a_(m))) p (b j ∣ am) (\displaystyle p(b_(j)\mid a_(m))) p (b m ∣ a m) (\displaystyle p(b_(m)\mid a_(m)))

분명히 대각선을 따라 위치한 확률은 올바른 수신 확률을 나타내며 모든 행의 모든 ​​요소의 합은 1을 제공합니다. 전송된 신호로 인한 손실 a i (\displaystyle a_(i)), 부분 조건부 엔트로피 측면에서 설명됩니다.

H (B ∣ a i) = − ∑ j = 1 m p (b j ∣ a i) log 2 ⁡ p (b j ∣ a i) . (\displaystyle H(B\mid a_(i))=-\sum _(j=1)^(m)p(b_(j)\mid a_(i))\log _(2)p(b_( j)\mid a_(i)).)

모든 신호의 전송 손실을 계산하기 위해 총 조건부 엔트로피가 사용됩니다.

H (B ∣ A) = ∑ i p (ai) H (B ∣ a i) . (\displaystyle H(B\mid A)=\sum _(i)p(a_(i))H(B\mid a_(i)).)

H (B ∣ A) (\displaystyle H(B\mid A))유사하게 고려되는 소스 측의 엔트로피를 의미합니다. H (A ∣ B) (\displaystyle H(A\mid B))- 수신측의 엔트로피: 대신 p (b j ∣ a i) (\displaystyle p(b_(j)\mid a_(i)))곳곳에 표시되어 있습니다 p (ai ∣ b j) (\displaystyle p(a_(i)\mid b_(j)))(행의 요소를 합하면 다음을 얻을 수 있습니다. p (ai) (\displaystyle p(a_(i))), 대각선의 요소는 수신한 문자를 정확히 보냈을 확률, 즉 정확히 전송했을 확률을 의미).

상호 엔트로피

상호 엔트로피 또는 합집합 엔트로피상호 연결된 시스템의 엔트로피(통계적으로 종속된 메시지의 공동 출현 엔트로피)를 계산하도록 설계되었으며 다음과 같이 표시됩니다. H (A B) (\displaystyle H(AB)), 어디 A (\디스플레이스타일 A)송신기를 특성화하고, B (\디스플레이스타일 B)- 수화기.

유사한 기사

2023 liveps.ru. 화학 및 생물학의 숙제 및 기성품 작업.