33 votos

Interpretación estadística de la distribución máxima de entropía

He utilizado el principio de la entropía máxima para justificar el uso de varias distribuciones en diversos entornos; sin embargo, todavía no he podido formular una interpretación estadística, en contraposición con la teoría de la información, de la entropía máxima. En otras palabras, ¿qué implica la maximización de la entropía sobre las propiedades estadísticas de la distribución?

¿Alguien se ha encontrado o quizás descubierto por sí mismo una interpretación estadística de las distribuciones de entropía máximas que no apela a la información, sino sólo a los conceptos probabilísticos?

Como ejemplo de tal interpretación (no necesariamente verdadera): "Para un intervalo de longitud arbitraria L en el dominio del RV (suponiendo su continuo 1-d para simplificar), la máxima probabilidad que puede contener este intervalo es minimizada por la máxima distribución de entropía".

Así que, como ves, no se habla de "información" ni de otras ideas más filosóficas, sólo de implicaciones probabilísticas.

3 votos

Creo que tienes que ser más específico sobre lo que buscas: la entropía es, después de todo, una medida tan "estadística" como la varianza, etc., por lo que la distribución de máxima entropía maximiza la entropía es una descripción estadística perfectamente buena. Así que me parece que hay que salirse de la estadística para llegar a una "justificación"

1 votos

Seanv: Estoy de acuerdo en que la entropía, como función estadística, es tan "estadística" como la varianza, el valor esperado, el sesgo, etc. Sin embargo, utilizando la media y la desviación estándar como ejemplos, éstas tienen interpretaciones puramente probabilísticas a través de los teoremas de Markov y Chebyshev y, en última instancia, en uno de los teoremas del límite central y también intuitivamente como sumas de largo plazo (para la media) y error RMS (para la desviación estándar). Quizás debería reformular mi pregunta para que diga "Interpretación probabilística de las distribuciones de máxima entropía".

1 votos

Annika, la distribución de máxima entropía tiene la siguiente interpretación: Si $X_1,X_2,\dots$ son variables aleatorias i.i.d., entonces la probalidad condicional $P(\cdot|X_1+\dots+X_n=na)\to P^*(\cdot)$ como $n\to \infty$ donde $P^*$ es la distribución de máxima entropía del conjunto $\{P:\mathbb{E}_PX=a\}$ . Ver también ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1

39voto

kjetil b halvorsen Puntos 7012

Este no es realmente mi campo, así que algunas reflexiones:

Empezaré con el concepto de sorpresa . ¿Qué significa estar sorprendido? Por lo general, significa que ha ocurrido algo que no se esperaba que ocurriera. Por tanto, la sorpresa es un concepto probabilístico y puede explicarse como tal (I J Good ha escrito sobre ello). Véase también Wikipedia et Sorpresa bayesiana .

Tomemos el caso particular de una situación de sí/no, algo puede suceder o no. Sucede con probabilidad $p$ . Digamos que, si p=0,9 y sucede, no te sorprende realmente. Si $p=0.05$ y ocurre, te sorprendes un poco. Y si $p=0.0000001$ y ocurre, te sorprendes de verdad. Por lo tanto, una medida natural del "valor de la sorpresa en el resultado observado" es alguna función (anti)monótona de la probabilidad de lo ocurrido. Parece natural (y funciona bien...) tomar el logaritmo de la probabilidad de lo ocurrido, y luego le echamos un signo menos para obtener un número positivo. Además, al tomar el logaritmo nos concentramos en el orden de la sorpresa y, en la práctica, las probabilidades suelen conocerse sólo hasta el orden, más o menos .

Así, definimos $$ \text{Surprise}(A) = -\log p(A) $$ donde $A$ es el resultado observado, y $p(A)$ es su probabilidad.

Ahora podemos preguntarnos cuál es el sorpresa esperada . Sea $X$ sea una variable aleatoria Bernoulli con probabilidad $p$ . Tiene dos posibles resultados, 0 y 1. Los respectivos valores sorpresa son $$\begin{align} \text{Surprise}(0) &= -\log(1-p) \\ \text{Surprise}(1) &= -\log p \end{align} $$ por lo que la sorpresa al observar $X$ es a su vez una variable aleatoria con expectativa $$ p \cdot -\log p + (1-p) \cdot -\log(1-p) $$ y eso es --- ¡sorpresa! --- la entropía de $X$ ¡! Así que la entropía es sorpresa esperada ¡!

Ahora, esta pregunta es sobre máxima entropía . ¿Por qué querría alguien utilizar una distribución de máxima entropía? Pues debe ser porque quieren sorprenderse al máximo. ¿Por qué querría alguien eso?

Una forma de verlo es la siguiente: Quieres aprender sobre algo, y para ello estableces algunas experiencias de aprendizaje (o experimentos...). Si ya lo sabías todo sobre ese tema, eres capaz de predecirlo siempre a la perfección, por lo que nunca te sorprendes. Entonces nunca obtienes una nueva experiencia, por lo que no aprendes nada nuevo (pero ya lo sabes todo... no hay nada que aprender, así que está bien). En la situación más típica de estar confundido, de no ser capaz de predecir perfectamente, ¡hay una oportunidad de aprendizaje! Esto nos lleva a la idea de que podemos medir la "cantidad de aprendizaje posible" por la sorpresa esperada , es decir, la entropía. Así, maximizar la entropía no es otra cosa que maximizar las oportunidades de aprendizaje . Parece un concepto útil, que podría servir para diseñar experimentos y cosas así.

Un ejemplo poético es el conocido

Cuando alguien se va de viaje, puede contar una historia...

Un ejemplo práctico : Usted quiere diseñar un sistema para pruebas en línea (en línea significa que no todo el mundo recibe las mismas preguntas, las preguntas se eligen dinámicamente en función de las respuestas anteriores, por lo que se optimizan, de alguna manera, para cada persona).

Si se hacen preguntas demasiado difíciles, para que nunca se dominen, no se aprende nada. Eso indica que debes bajar el nivel de dificultad. ¿Cuál es el nivel de dificultad óptimo, es decir, el que maximiza la tasa de aprendizaje? Sea la probabilidad de respuesta correcta $p$ . Queremos que el valor de $p$ que maximiza la entropía de Bernoulli. Pero eso es $p=0.5$ . Por lo tanto, su objetivo es plantear preguntas en las que la probabilidad de obtener una respuesta correcta (de esa persona) sea de 0,5.

Entonces el caso de una variable aleatoria continua $X$ . ¿Cómo podemos sorprendernos al observar $X$ ? La probabilidad de un resultado concreto $\{X=x\}$ es cero, el $-\log p$ definición es inútil. Pero nos sorprenderá que la probabilidad de observar algo como $x$ es pequeño, es decir, si el valor de la función de densidad $f(x)$ es pequeño (suponiendo que $f$ es continua). Esto nos lleva a la definición $$ \DeclareMathOperator{\E}{\mathbb{E}} \text{Surprise}(x) = -\log f(x) $$ Con esta definición, la sorpresa esperada al observar $X$ es $$ \E \{-\log f(X)\} = -\int f(x) \log f(x) \; dx $$ es decir, la sorpresa esperada al observar $X$ es la entropía diferencial de $X$ . También puede verse como la loglikelihood negativa esperada.

Pero esto no es realmente lo mismo que el primer caso, el del evento. Para verlo, un ejemplo. Dejemos que la variable aleatoria $X$ representan la longitud de un lanzamiento de una piedra (por ejemplo, en una competición deportiva). Para medir esa longitud tenemos que elegir una unidad de longitud, ya que no hay una escala intrínseca para la longitud, como sí la hay para la probabilidad. Podríamos medir en mm o en km, o más habitualmente, en metros. Pero nuestra definición de sorpresa, y por tanto de sorpresa esperada, depende de la unidad elegida, por lo que no hay invarianza. Por esa razón, los valores de la entropía diferencial no son directamente comparables como lo es la entropía de Shannon. Aun así, puede ser útil, si se recuerda este problema.

5voto

Zolomon Puntos 250

Quizás no sea exactamente lo que buscas, pero en Rissanen, J. Complejidad estocástica en la investigación estadística En el libro "La entropía máxima", World Scientific, 1989, p. 41, hay una interesante conexión entre la entropía máxima, la distribución normal y el teorema del límite central. Entre todas las densidades con media cero y desviación estándar $\sigma$ la densidad normal tiene la máxima entropía.

"Por lo tanto, en esta interpretación el teorema del límite central básico expresa el hecho de que la entropía por símbolo de las sumas de variables aleatorias independientes con media cero y varianza común tiende al máximo. Esto parece eminentemente razonable; de hecho, es una expresión de la segunda ley de la termodinámica, que Eddington consideraba que ocupaba "la posición suprema entre las leyes de la Naturaleza"."

Todavía no he explorado las implicaciones de esto, ni estoy seguro de entenderlas completamente.

[edit: fixed typo]

4voto

Matt Puntos 918

Aunque no soy un experto en la teoría de la información y la entropía máxima, hace tiempo que me interesa.

La entropía es una medida de la incertidumbre de una distribución de probabilidad derivada de un conjunto de criterios. Ésta y otras medidas relacionadas caracterizan las distribuciones de probabilidad. Y es la única medida que satisface esos criterios. Esto es similar al caso de la propia probabilidad, que como se explica maravillosamente en Jaynes (2003), es la única medida que satisface algunos criterios muy deseables para cualquier medida de incertidumbre de los enunciados lógicos.

Cualquier otra medida de la incertidumbre de una distribución de probabilidad que fuera diferente de la entropía tendría que violar uno o más de los criterios utilizados para definir la entropía (de lo contrario, sería necesariamente entropía). Por lo tanto, si tuvieras alguna afirmación general en términos de probabilidad que de alguna manera diera los mismos resultados que la máxima entropía... entonces sería sea ¡máxima entropía!

Lo más parecido a una declaración de probabilidad sobre las distribuciones de máxima entropía que he encontrado hasta ahora es Teorema de concentración de Jaynes . Se puede encontrar claramente explicado en Kapur y Kesavan (1992). A continuación, una reafirmación suelta:

Necesitamos una distribución de probabilidad discreta $p$ en $n$ resultados. Es decir, requerimos $p_i$ , $i=1,...,n$ . Tenemos $m$ que tiene que satisfacer nuestra distribución de probabilidad; además, como las probabilidades deben sumar 1, tenemos un total de $m+1$ limitaciones.

Dejemos que $S$ sea la entropía de alguna distribución que satisfaga la $m+1$ y dejar que $S_{\textrm{max}}$ sea la entropía de la distribución de máxima entropía.

A medida que el tamaño del conjunto de observaciones $N$ crece, tenemos $$2N(S_{\textrm{max}} - S) \sim \chi^2_{n-m-1}.$$

Con esto, un 95% intervalo de entropía se define como $$\left( S_{\textrm{max}} - \frac {\chi^2_{n-m-1} (0.95)}{2N}, S_{\textrm{max}} \right).$$ Así, cualquier otra distribución que satisfaga las mismas restricciones que la distribución de máxima entropía tiene un 95% de posibilidades de tener una entropía mayor que $S_{\textrm{max}} - \frac {\chi^2_{n-m-1} (0.95)}{2N}$ .

E.T. Jaynes (2003) Teoría de la probabilidad: La lógica de la ciencia. Cambridge University Press.

J.N. Kapur y .K. Kesavan (1992) Principios de optimización de la entropía con aplicaciones. Academic Press, Inc.

0voto

mat Puntos 203

Puede que quieras echar un vistazo a la derivación de Wallis.

https://en.wikipedia.org/wiki/Principle_of_maximum_entropy#The_Wallis_derivation

Tiene la ventaja de ser de naturaleza estrictamente combinatoria, sin hacer referencia a la entropía de la información como medida de "incertidumbre", "desinformación" o cualquier otro concepto impreciso.

La página de la wikipedia es excelente, pero permítanme añadir un ejemplo sencillo para ilustrar la idea.

Supongamos que tienes un dado. Si el dado es justo, el valor medio del número mostrado será 3,5. Ahora, imagina que tienes un dado cuyo valor medio mostrado es un poco más alto, digamos 4.

¿Cómo puede hacerlo? Bueno, ¡puede hacerlo de mil maneras! Por ejemplo, podría mostrar 4 cada vez. O podría mostrar 3, 4, 5 con igual probabilidad.

Digamos que quieres escribir un programa de ordenador que simule un dado con media 4. ¿Cómo lo harías?

Una solución interesante es ésta. Empiezas con un dado justo. Lo tiras muchas veces (digamos 100) y obtienes un montón de números. Si la media de estos números es 4, aceptas la muestra. Si no, la rechazas y lo vuelves a intentar.

Después de muchos intentos, finalmente se obtiene una muestra con una media de 4. Ahora su programa informático simplemente devolverá un número elegido al azar de esta muestra.

¿Qué números mostrará? Bueno, por ejemplo, se espera que el 1 esté presente un poco, pero probablemente no 1/6 de las veces, porque un 1 bajará la media de la muestra y aumentará la probabilidad de que la muestra sea rechazada.

En el límite de una muestra muy grande, los números se distribuirán de acuerdo con esto:

https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution#Discrete_distributions_with_specified_mean

que es la distribución con máxima entropía entre las que tienen media especificada. ¡Ah!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X