32 votos

¿Qué caracterizaciones de información relativa se conocen?

Dadas dos distribuciones de probabilidad $p,q$ sobre un conjunto finito $X$, la cantidad muchas veces conocida como la información relativa, relativa entropía, la obtención de información o de Kullback–Leibler divergencia se define a ser

$$ D_{KL}(p\|q) = \sum_{i \in X} p_i \ln\left(\frac{p_i}{q_i}\right) $$

Esta es una generalización natural de la de Shannon, la información de una sola medida de probabilidad.

Yo escribí un artículo con Tobias Fritz dar una categoría de la teoría de la caracterización de esta cantidad:

Tardíamente me pregunto ¿qué otras caracterizaciones son conocidos. En la Wikipedia he leído:

Arthur Hobson, demostró que el de Kullback–Leibler divergencia es la única medida de la diferencia entre las distribuciones de probabilidad de que satisface una desiderata, que son los canónica de extensión a los que aparecen en un comúnmente utilizados en la caracterización de la entropía.

Lamentablemente no se dan estas consideraciones, y hay un montón de diferentes caracterizaciones de la entropía, así que no sé que uno se quiere decir aquí. No tengo también el acceso rápido a Hobson del libro:

  • Arthur Hobson, los Conceptos de la Mecánica Estadística, Gordon y Violación, Nueva York, 1971.

Wikipedia también proporciona una caracterización en términos de la teoría de la codificación:

El Kullback–Leibler divergencia puede ser interpretado como la espera extra mensaje de longitud por cada dato que debe ser comunicada si un código que es el óptimo para un determinado (mal) distribución $q$ es utilizado, en comparación con el uso de un código basado en la verdadera distribución de $p$.

Esto es exacto en el Teorema 5.4.3 aquí:

  • T. M. de la Cubierta y J. A. Thomas, Elementos de la Teoría de la Información, 2ª Edición, Wiley-Interscience, Nueva York, 2006.

¿Qué otras caracterizaciones de la relación de la entropía se conocen?

14voto

jamesnvc Puntos 848

Estimación de máxima verosimilitud:

Deje $X_1,\dots,X_n$ ser independiente e idénticamente distribuidas las observaciones de una distribución modelada por la paramétrico de la familia $\mathcal{F} = \{P_{\theta}:\theta\in\Theta\}$. Supongamos que todas las distribuciones en $\mathcal{F}$ tienen un común finito de apoyo conjunto $\mathcal{X}$. La estimación de máxima verosimilitud (MLE) corresponde a la distribución de probabilidad $P_{\theta}$, lo que maximiza $\small\prod_{i=1}^n P_{\theta}(X_i)$. Deje $\hat{P}$ ser la distribución empírica de las observaciones. Entonces \begin{eqnarray} \small\frac{\prod_{i=1}^n P_{\theta}(X_i)}{\prod_{i=1}^n \hat P(X_i)} & = & \small\prod_{x\in\mathcal{X}} \Big(\frac{P_{\theta}(x)}{\hat P(x)}\Big)^{n\hat P(x)}\\ & = & \small \exp\Big\{n\sum\limits_{x\in\mathcal{X}}\hat P(x)\log\Big(\frac{P_{\theta}(x)}{\hat P(x)}\Big)\Big\}\\ & = & \small\exp\{-nD(\hat P\|P_{\theta})\}. \end{eqnarray}

Así, la maximización de la $\small\prod_{i=1}^n P_{\theta}(X_i)$ es lo mismo que minimizar $\small D(\hat P\|P_{\theta})$.

Fuente: I. Csiszar y P. C. Escudos, "la Teoría de la Información y Estadística: Un Tutorial.

10voto

Bill Turner Puntos 2689

Una relacionada con la consecuencia es la Chernoff caracterización de los mejores alcanzable exponente en Bayesiano de pruebas de hipótesis. Dado $X_1,\ldots,X_n$ i.yo.d., ($X_k \in {\cal X}$, que es un conjunto finito, para $k=1,\ldots,n$) de la distribución de $\mathbb{Q}$ y dos hipótesis $$H_k:\mathbb{Q}=\mathbb{P}_k$$ with $k=1,2$ and prior probabilities $\pi_k,$ the overall probability of error is $$P_e^{(n)}=\pi_1 \alpha_n + \pi_2 \beta_n$$ where $\alpha_n$ (resp. $\beta_n$) is the error conditional on $H_1$ (resp. $H_2$) being true when the $n$ measurements above are used. Let $A_n$ be the region where the decision $H_1$ es 'verdadero' es. Entonces $$\lim_{n\rightarrow \infty} \min_{A_n \in {\cal X}^n} -\frac{1}{n}P_e^{(n)}=D^{\ast} $$ donde $$P_{\lambda}=\frac{P_1^{\lambda}(x) P_2^{1-\lambda}(x)}{\sum_{a \in {\cal X}} P_1^{\lambda}(a) P_2^{1-\lambda}(a)}$$ y $\lambda^{\ast}$ es el valor de $\lambda$ dado por $$D(P_{\lambda^{\ast}}||P_1)=D(P_{\lambda^{\ast}}||P_1).$$

También hay una compresión de datos (tasa de distorsión) versión de su declaración con respecto a la pena en espera de la palabra de longitud cuando el mal estadísticas se utilizan para derivar el código de compresión.

7voto

jlleblanc Puntos 2957

No tengo Hobson del libro, pero tengo un papel por Hobson en la cual prueba el teorema de que la Wikipedia es presumiblemente en referencia a:

Arthur Hobson, Un nuevo teorema en la teoría de la información. Revista de Física Estadística 1 (1969), 383-391.

(Lo que un título. Lejos están los días en que usted puede conseguir lejos con eso!!!)

Aquí Hobson del teorema. Deje $I(p; q)$ definirse para cualquier par de distribuciones de probabilidad $p, q$ sobre un conjunto finito. Supongamos que satisface las propiedades siguientes. A continuación, $I$ es una constante múltiples de la relación de la entropía.

Antes de que me de la lista de las propiedades, permítanme hacer un comentario: la frase "vamos a ... se define" es su. Él no precisa sobre el codominio de la función $I$. Veo que no se menciona el hecho de que la relación de la entropía puede ser infinito, y es posible que se asume tácitamente que la $I(p; q)$ es siempre no negativo.

Sus propiedades:

  • $I$ es una función continua de su $2n$ variables. (De nuevo, no sé cómo/si él se encarga de los infinitos. Como John Tobias aclaran en su papel, la continuidad relativa de la entropía tiende a $\infty$ es en realidad un difícil punto).

  • $I$ es de permutación-invariante (haciendo la misma permutación de los dos argumentos). En realidad, él sólo los estados invariancia bajo una sola transposición, pero obviamente que es equivalente.

  • $I(p; p) = 0$ para todos los $p$.

  • $I((1/m, \ldots, 1/m, 0, \ldots, 0); (1/n, \ldots, 1/n))$ es una función creciente de $n$ y una disminución de la función de $m$, para todos los $n \geq m \geq 1$. (No sé si él significa el aumento y la disminución en el estricto o en sentido débil.)

  • Tenemos \begin{align*} & I((p_1, \ldots, p_m, p_{m + 1}, \ldots, p_n); (q_1, \ldots, q_m, q_{m + 1}, \ldots, q_n)) \\ & = I((P, P'); (Q; Q')) + P\cdot I((p_1/P, \ldots, p_m/P); (q_1/Q, \ldots, q_m/Q))\\ & \quad + P'\cdot I((p_{m + 1}/P', \ldots, p_n/P'); (q_{m + 1}/Q', \ldots, q_n/Q')) \end{align*} para todas las distribuciones de probabilidad de $p$ e $q$ y todos los $m \in \{1, \ldots, n\}$, donde hemos puesto $P = p_1 + \cdots + p_m$, $P' = 1 - P$, $Q = q_1 + \cdots + q_m$, y $Q' = 1 - Q$. (Aunque se los divide por $P$, $P'$, $Q$ y $Q'$ aquí parece que no es decir qué hacer si son cero.)

Este teorema es más débil que el resultado en mi anterior respuesta. En que otra respuesta, su continuidad axioma es reemplazado por la mensurabilidad, la permutación de invariancia y la desaparición de los axiomas de la misma, y su cuarto axioma (sobre el aumento/disminución) simplemente no está allí. La última axiomas en ambas listas se ven diferentes, pero en realidad son equivalentes. Esto toma un poco de explicación, de la siguiente manera.

Como usul señala, la mayoría de los teoremas de caracterización de las entropías implican un axioma mirando como estos. De hecho, ambos de Hobson último axioma y el último axioma en mi anterior respuesta son casos especiales de la siguiente axioma general, que me han dicho que es conocida como la "regla de la cadena".

Para el estado, permítanme presentarles a algunos de notación. Dado a las distribuciones de probabilidad de $\mathbf{w}$ a $n$ elementos, $\mathbf{p}^1$ a $k_1$ elementos, ..., $\mathbf{p}^n$ a $k_n$ elementos, se obtiene una distribución $$ \mathbf{w} \circ (\mathbf{p}^1, \ldots, \mathbf{p}^n) = (w_1 p^1_1, \ldots, w_1 p^1_{k_1}, \ \ldots, \ w_n p^n_1, \ldots, w_n p^n_{k_n}) $$ en $k_1 + \cdots + k_n$. El uso de esa notación, la regla de la cadena para la relación de la entropía de los estados que $$ D\bigl(\mathbf{w} \circ (\mathbf{p}^1, \ldots, \mathbf{p}^n) \,\|\, \tilde{\mathbf{w}} \circ (\tilde{\mathbf{p}}^1, \ldots, \tilde{\mathbf{p}}^n)\bigr) = D(\mathbf{w} \,\|\, \tilde{\mathbf{w}}) + \sum_{i = 1}^n p_i D(\mathbf{p}^i \,\|\, \tilde{\mathbf{p}}^i). $$ Es fácil ver que tanto de Hobson último axioma y el último axioma en mi anterior respuesta son casos especiales de esta regla general. Pero por inductivas argumentos, uno de estos casos, implica en el caso general. Por eso digo que son equivalentes.

Si se puede encontrar el caso general o uno de los casos especiales más atractivo es una cuestión de gusto.

6voto

Rakesh Juyal Puntos 203

La entropía relativa se enmarca con frecuencia como la temperatura inversa multiplicada por la diferencia entre las energías libre de Helmholtz y variacional / Bethe, la última de las cuales se minimiza como una función objetivo indirecta en la teoría del campo medio y la estimación bayesiana a través del conocido algoritmo de maximización de expectativas. El libro de MacKay es una buena referencia para esto.

5voto

jlleblanc Puntos 2957

Deje $A_n$ el conjunto de pares $(p, q)$ de las distribuciones de probabilidad en $\{1, \ldots, n\}$ tal que $q_i = 0 \implies p_i = 0$. (Esta es precisamente la condición necesaria para garantizar que $D(p\|q) < \infty$.)

Teorema Deje $(I: A_n \to [0, \infty))_{n \geq 1}$ ser una secuencia de funciones. A continuación, $I$ es un escalar múltiples de información relativa si y sólo si:

  • las funciones de $I$ son medibles;
  • las funciones de $I$ son permutación-invariante (es decir, $I(p\sigma\|q\sigma) = I(p\|q)$ para todos los $\sigma \in S_n$);
  • $I(p\|p) = 0$ para todos los $p$;
  • tenemos $$ \begin{align*} & I\bigl(tp_1, (1 - t)p_2, p_3, \ldots, p_n \,\|\, uq_1, (1 - u)q_2, q_3, \ldots, q_n)\bigr)\\ & = I(p\|q) + p_1 I\bigl((t, 1 - t)\,\|\,(u, 1 - u)\bigr) \end{align*} $$ para todas las distribuciones $p, q$ y todos los $t, u \in [0, 1]$ tal que $((t, 1 - t), (u, 1 - u)) \in A_2$.

No sé quien la enunció por primera vez o se demostró este teorema. Me encontré a mí mismo (inspirado por John Tobias en papel), y escribió acerca de ella aquí. Pero parece poco probable que es nuevo. Podría haber sido encontrado en cualquier momento desde la década de 1950, y probablemente ha sido. La búsqueda de la literatura se hace difícil por el hecho de que la información relativa es estudiado en múltiples disciplinas (matemáticas, física, ingeniería, estadística, ...) y va por muchos nombres.

Editar (meses después), Algo muy similar a este resultado fue implícitamente demostrado por Kannappan y Ng en 1972. Sólo me escribió una corta prueba como arXiv:1712.04903, y la historia se discute en la Observación 2.7 allí. Esta observación se incluye un resumen del teorema de Hobson que Juan originalmente se le preguntó acerca.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X