8 votos

Preservar información mutua después de la compresión de los Estados

Deje $X$ $Y$ ser las variables estocásticas en, respectivamente, $n$ $m$ $m>n$ y una distribución de probabilidad conjunta $p(x,y)$. La información mutua es $$ I(X ;Y) = H(X) + H(Y) - H(X,Y) $$ donde $H(X)$ indica que la entropía de Shannon de la marginal de $p$ $X$ $H(X,Y)$ es la de Shannon, la entropía de la distribución conjunta $p$.

Es posible comprimir $Y$ el tamaño de $X$, mientras que la preservación de la información mutua? Es decir, ¿existe una matriz estocástica $T: \mathbb{R}^m \rightarrow \mathbb{R}^n$ que envía a $p$$(I_n\otimes T)p$, de tal manera que $$ I(X;Y) = I(X;Y^\prime) $$

Intuitivamente esto tiene sentido, dado que la cantidad máxima de información que se puede compartir, depende de la dimensión más pequeña de las dos. Sin embargo yo no podía encontrar cualquier resultado como este.

0voto

Stelios Puntos 416

Aquí está mi intento de responder a esta interesante pregunta.

Las variables aleatorias $X,Y,T(Y)$ forma una cadena de Markov $X\rightarrow Y \rightarrow T(Y)$. El procesamiento de datos de la desigualdad, que siempre tiene $$ I(X, T(Y))\leq I(X;Y) $$ con igualdad si y sólo si también tiene $X\rightarrow T(Y) \rightarrow Y$.

La última condición es lo que define el llamado suficiente la estadística en la estimación de la teoría [de la Cubierta Y Thomas, Ch. 2]. Por lo tanto, tu pregunta puede ser equivalentemente, que plantea de la siguiente manera: ¿Es siempre posible encontrar una estadística suficiente $T(Y)$ de dimensión menor que la dimensión de la "parámetro" $X$?

Resulta que esto no es siempre posible. Considere el siguiente ejemplo (tomado de estas diapositivas). $X\in \mathbb{R}$ es un one-dimensional de la variable aleatoria (de algunos distribución arbitraria) y $Y\in \mathbb{R}^n$ $m$- dimensional de la variable aleatoria cuyos elementos son yo.yo.d. distribuidos de manera uniforme sobre el intervalo $[X,X+1]$. Se puede demostrar que el llamado mínimo suficiente de la estadística en este caso es el vector bidimensional $(\min\{Y_i\},\max\{Y_i\})$. Por lo tanto, a pesar de la "compresión" de la observación es posible, la dimensión de la mínima suficiente estadística es mayor que la de $X$. Desde la transformación de la $T$ es no-lineal en este caso, se sigue que restringir nuestra atención a lineal se transforma sólo puede resultar en un aumento de la suficiente estadísticas dimensión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X