Este no es realmente mi campo, así que algunas reflexiones:
Empezaré con el concepto de sorpresa . ¿Qué significa estar sorprendido? Por lo general, significa que ha ocurrido algo que no se esperaba que ocurriera. Por tanto, la sorpresa es un concepto probabilístico y puede explicarse como tal (I J Good ha escrito sobre ello). Véase también Wikipedia et Sorpresa bayesiana .
Tomemos el caso particular de una situación de sí/no, algo puede suceder o no. Sucede con probabilidad $p$ . Digamos que, si p=0,9 y sucede, no te sorprende realmente. Si $p=0.05$ y ocurre, te sorprendes un poco. Y si $p=0.0000001$ y ocurre, te sorprendes de verdad. Por lo tanto, una medida natural del "valor de la sorpresa en el resultado observado" es alguna función (anti)monótona de la probabilidad de lo ocurrido. Parece natural (y funciona bien...) tomar el logaritmo de la probabilidad de lo ocurrido, y luego le echamos un signo menos para obtener un número positivo. Además, al tomar el logaritmo nos concentramos en el orden de la sorpresa y, en la práctica, las probabilidades suelen conocerse sólo hasta el orden, más o menos .
Así, definimos $$ \text{Surprise}(A) = -\log p(A) $$ donde $A$ es el resultado observado, y $p(A)$ es su probabilidad.
Ahora podemos preguntarnos cuál es el sorpresa esperada . Sea $X$ sea una variable aleatoria Bernoulli con probabilidad $p$ . Tiene dos posibles resultados, 0 y 1. Los respectivos valores sorpresa son $$\begin{align} \text{Surprise}(0) &= -\log(1-p) \\ \text{Surprise}(1) &= -\log p \end{align} $$ por lo que la sorpresa al observar $X$ es a su vez una variable aleatoria con expectativa $$ p \cdot -\log p + (1-p) \cdot -\log(1-p) $$ y eso es --- ¡sorpresa! --- la entropía de $X$ ¡! Así que la entropía es sorpresa esperada ¡!
Ahora, esta pregunta es sobre máxima entropía . ¿Por qué querría alguien utilizar una distribución de máxima entropía? Pues debe ser porque quieren sorprenderse al máximo. ¿Por qué querría alguien eso?
Una forma de verlo es la siguiente: Quieres aprender sobre algo, y para ello estableces algunas experiencias de aprendizaje (o experimentos...). Si ya lo sabías todo sobre ese tema, eres capaz de predecirlo siempre a la perfección, por lo que nunca te sorprendes. Entonces nunca obtienes una nueva experiencia, por lo que no aprendes nada nuevo (pero ya lo sabes todo... no hay nada que aprender, así que está bien). En la situación más típica de estar confundido, de no ser capaz de predecir perfectamente, ¡hay una oportunidad de aprendizaje! Esto nos lleva a la idea de que podemos medir la "cantidad de aprendizaje posible" por la sorpresa esperada , es decir, la entropía. Así, maximizar la entropía no es otra cosa que maximizar las oportunidades de aprendizaje . Parece un concepto útil, que podría servir para diseñar experimentos y cosas así.
Un ejemplo poético es el conocido
Cuando alguien se va de viaje, puede contar una historia...
Un ejemplo práctico : Usted quiere diseñar un sistema para pruebas en línea (en línea significa que no todo el mundo recibe las mismas preguntas, las preguntas se eligen dinámicamente en función de las respuestas anteriores, por lo que se optimizan, de alguna manera, para cada persona).
Si se hacen preguntas demasiado difíciles, para que nunca se dominen, no se aprende nada. Eso indica que debes bajar el nivel de dificultad. ¿Cuál es el nivel de dificultad óptimo, es decir, el que maximiza la tasa de aprendizaje? Sea la probabilidad de respuesta correcta $p$ . Queremos que el valor de $p$ que maximiza la entropía de Bernoulli. Pero eso es $p=0.5$ . Por lo tanto, su objetivo es plantear preguntas en las que la probabilidad de obtener una respuesta correcta (de esa persona) sea de 0,5.
Entonces el caso de una variable aleatoria continua $X$ . ¿Cómo podemos sorprendernos al observar $X$ ? La probabilidad de un resultado concreto $\{X=x\}$ es cero, el $-\log p$ definición es inútil. Pero nos sorprenderá que la probabilidad de observar algo como $x$ es pequeño, es decir, si el valor de la función de densidad $f(x)$ es pequeño (suponiendo que $f$ es continua). Esto nos lleva a la definición $$ \DeclareMathOperator{\E}{\mathbb{E}} \text{Surprise}(x) = -\log f(x) $$ Con esta definición, la sorpresa esperada al observar $X$ es $$ \E \{-\log f(X)\} = -\int f(x) \log f(x) \; dx $$ es decir, la sorpresa esperada al observar $X$ es la entropía diferencial de $X$ . También puede verse como la loglikelihood negativa esperada.
Pero esto no es realmente lo mismo que el primer caso, el del evento. Para verlo, un ejemplo. Dejemos que la variable aleatoria $X$ representan la longitud de un lanzamiento de una piedra (por ejemplo, en una competición deportiva). Para medir esa longitud tenemos que elegir una unidad de longitud, ya que no hay una escala intrínseca para la longitud, como sí la hay para la probabilidad. Podríamos medir en mm o en km, o más habitualmente, en metros. Pero nuestra definición de sorpresa, y por tanto de sorpresa esperada, depende de la unidad elegida, por lo que no hay invarianza. Por esa razón, los valores de la entropía diferencial no son directamente comparables como lo es la entropía de Shannon. Aun así, puede ser útil, si se recuerda este problema.
3 votos
Creo que tienes que ser más específico sobre lo que buscas: la entropía es, después de todo, una medida tan "estadística" como la varianza, etc., por lo que la distribución de máxima entropía maximiza la entropía es una descripción estadística perfectamente buena. Así que me parece que hay que salirse de la estadística para llegar a una "justificación"
1 votos
Seanv: Estoy de acuerdo en que la entropía, como función estadística, es tan "estadística" como la varianza, el valor esperado, el sesgo, etc. Sin embargo, utilizando la media y la desviación estándar como ejemplos, éstas tienen interpretaciones puramente probabilísticas a través de los teoremas de Markov y Chebyshev y, en última instancia, en uno de los teoremas del límite central y también intuitivamente como sumas de largo plazo (para la media) y error RMS (para la desviación estándar). Quizás debería reformular mi pregunta para que diga "Interpretación probabilística de las distribuciones de máxima entropía".
1 votos
Annika, la distribución de máxima entropía tiene la siguiente interpretación: Si $X_1,X_2,\dots$ son variables aleatorias i.i.d., entonces la probalidad condicional $P(\cdot|X_1+\dots+X_n=na)\to P^*(\cdot)$ como $n\to \infty$ donde $P^*$ es la distribución de máxima entropía del conjunto $\{P:\mathbb{E}_PX=a\}$ . Ver también ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1056374&tag=1
2 votos
Gracias Ashok. Echaré un vistazo a ese documento con más detalle. Esto parece un caso específico de maximización de la entropía para una media dada, pero todavía tengo curiosidad por saber qué hace matemáticamente la operación de maximización de la entropía de Shanon para que el resultado anterior se mantenga. ¿Es efectivamente minimizar la densidad máxima o la concentración media de la medida de probabilidad?