18 votos

Lo que hace el-log[P(X)] significa en el cálculo de la entropía?

La entropía (auto de información) de un discreto de la variable aleatoria X se calcula como:

$$ H(x)=E(-log[P(X)]) $$

Lo que hace el-log[P(X)] significa? Parece ser algo así como ""el auto de la información de cada uno de los resultados posibles de la variable aleatoria X".

Y para qué los utilizamos registro de función para calcular?

AGREGAR 1

Bien, a continuación es mi razonamiento:

La raíz de la motivación es la cuantificación o medición de la incertidumbre contenida en una variable aleatoria.

Intuitivamente, las personas tienden a estar de acuerdo que hay alguna conexión entre la incertidumbre y la probabilidad. Y todavía de manera intuitiva, la gente estará de acuerdo en que:

  • la mayor probabilidad de un resultado, menos incertidumbre que tiene.
  • por lo tanto, menor la probabilidad de un resultado, mayor es la incertidumbre que tiene.

Entonces, yo creo que si queremos medir la incertidumbre de un resultado de una variable aleatoria, la función de la medida debe satisfacer:

  • el valor de la incertidumbre de medida debe ser positiva (instinto humano al contar)
  • el valor de esta medida de la incertidumbre de un resultado debe ser monótona decreciente en función de la probabilidad de ese resultado.
  • de los resultados de los experimentos independientes, la incertidumbre debe ser aditivos. Que es para P(a)*P(B), la incertidumbre total debe ser la suma de a y B. (Esto es algo instintivo, también.)

Entonces me vienen a la elección de -log[p(i)] como medida de la incertidumbre de cada resultado posible, o de auto-información de cada uno de los resultados.

Entonces yo trato a la entropía como el promedio ponderado de la auto-información de todos los resultados posibles.

Acabo de leer el libro <Teoría de la Información, la Inferencia y el Aprendizaje de los Algoritmos> por MacKay. El autor, de hecho, da una explicación similar a la mía. Y que nombre es el contenido de la información de cada uno de los resultados. No es difícil ver que la entropía describe mejor una variable aleatoria que el contenido de la información.

Y es una coincidencia que la fórmula que intuitivamente encontrado para medir el promedio de contenido de la información de una variable aleatoria tiene una forma similar a la de la entropía en termodinámica. Así viene el nombre de entropía de información...

Por CIERTO, quiero citar unas palabras de Einstein...

"No es tan importante cuando uno se establece. Lo mejor es siga sus instintos sin demasiada reflexión."

--Einstein a Max Born, 3 de Marzo de 1920. AEA 8-146

AGREGAR 2

Después de mi anterior razonamiento, he intentado derivar el cálculo de la entropía de un continuo de la variable aleatoria Y en una similar manera. Pero estaba bloqueada. Los detalles a continuación.

Sea Y p.d.f: $$f(y)$$

Entonces, si estamos estrictamente siga mi anterior razonamiento, deberíamos recoger un pequeño intervalo de I, y la probabilidad de Y en el intervalo I está dada por: $$P(y\ within\ I)=\int_If(y)dy$$Then the measure of uncertainty for Y to fall in interval I should be: $$m(y\ within\ I) = -log\int_If(y)dy$$ Then, to get the entropy, we should get the expectation/average of this measure m, which is essentially: $$E[m(y\ within\ I)]$$ y puede ampliarse de la siguiente manera:

$$ \int{P(y\ en\ I)*m(y\ en\ I)}dI =\int{(\int_I{f(y)dy}*{(-log\int_If(y)dy)})dI} $$

Me encontré atrapado aquí, porque el intervalo I no está estrictamente definido.

Entonces me encuentro a partir de aquí la definición oficial de la entropía de una variable aleatoria continua:

$$ H(Y)=-\int{f(y)log[f(y)]dy} $$

El p.d.f. $f(y)$ puede ser, ciertamente,$> 1$, por lo que el $H(Y)$ puede ser negativo, mientras que en discretos escenario, el $H(X)$ es siempre no negativo.

No puedo explicar el por qué de esta in-consistencia que está sucediendo. Por ahora, sólo puedo considerar como una dificultad filosófica con respecto a la continuidad y discreto.

Algunos de mi sentimiento personal (puede omitirse):

En el discreto escenario, el hormigón contables resultado de proporcionar la punto de apoyo para llevar a cabo nuestro cálculo. Pero en el continuo escenario, no existe el ready-made punto de apoyo (a menos que podamos de alguna manera hacer uno). Sin ese punto de apoyo, se siente como acabamos de seguir cayendo hacia el infinito vacío de la mente.

Alguien podría arrojar algo de luz?

11voto

Steven Lu Puntos 866

Sencillo ejemplo ilustrativo:

Tome una moneda. $P({\rm each\ result})=1/2$. Por la independencia, $P({\rm each\ result\ in\ n\ tosses})=1/2^n$. La sorpresa en cada lanzamiento de la moneda es la misma. La sorpresa en $n$ tiros es $n\times$(sorpresa en un sorteo). El $\log$ hace el truco. Y la entropía es la media sorpresa.

8voto

Roland Puntos 1100

En su artículo del año 1948 , Claude Shannon introdujo la entropía $H$ de una variable aleatoria discreta $X$ con probabilidades $p_1, \dots, p_n$ como una función que cumple tres requisitos, que debería proporcionar una medida de la información contenida en $X$:

  1. $H$ debe ser continua en el $p_i$.
  2. Si todos los $p_i$ son iguales, $p_i = \frac{1}{n}$, $H$ debe ser monótona creciente en función de $n$. Con la misma probabilidad de eventos no hay más opción, o la incertidumbre, cuando hay más posibles eventos.
  3. Si una opción se divide en dos elecciones sucesivas, el original de la $H$ debe ser la suma ponderada de los valores individuales de $H$.

Me explica lo de la propiedad 3 significa que con un buen ejemplo. Luego, en el apéndice 2, se muestra que sólo una función de la forma $$K \sum_{i=1}^n p_i \log(p_i)$$ can satisfy all these three requirements, where $K$ es algunos multiplicativo constante.

6voto

Did Puntos 1

Suponga que cada vez atrae a los valores de un conjunto finito $S$ del tamaño de la $|S|$ según una distribución $p=(p_x)_{x\in S}$. Después de un sorteo, hay $|S|$ resultados posibles, después de dos empates, hay $|S|^2$, y así sucesivamente, de modo que uno puede tener la impresión de que después de $n$ dibuja, la distribución resultante se extiende sobre el producto Cartesiano $S^n$, cuyo tamaño es $|S|^n$. Y de hecho lo es, pero esta visión es engañosa, porque la distribución está muy desigualmente repartida en $S^n$. Realidad:

Existe un subconjunto $T_n\subset S^n$, mucho menor que $S^n$, en el que casi toda la distribución de la muestra de tamaño $n$ se concentra. Y en $T_n$, el peso de cada elemento es aproximadamente la misma...

En otras palabras, todo ocurre como si el resultado combinado de la $n$ llama en primer lugar fue elegido uniformemente al azar en $T_n$. Lo que conecta los puntos es que el tamaño de $T_n$ $\mathrm e^{nH}$ para algunos finito determinista número $H$. (En realidad, el tamaño de $T_n$$\mathrm e^{nH+o(n)}$.) Seguramente usted reconoce que $H$ es la entropía de la distribución según la cual uno es el dibujo de los valores de $S$, es decir, $$ H=-\sum_{x\in S}p_x\log p_x=-E[\log p_X], $$ donde $X$ es cualquier variable aleatoria con distribución $p$.

Este sorprendente fenómeno general, relacionadas con lo que se llama concentración de la medida, cuantifica $\mathrm e^H$ el (crecimiento de la) tamaño efectivo de la muestra en el espacio. Como consecuencias directas, $0\leqslant H\leqslant\log|S|$, $H=0$ si y sólo si $p$ es una medida de Dirac y $H=\log|S|$ si y sólo si $p$ es uniforme.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X