19 votos

Limitación de la información mutua a partir de la información mutua puntual

Supongamos que tengo dos conjuntos $X$ y $Y$ y una distribución de probabilidad conjunta sobre estos conjuntos $p(x,y)$ . Sea $p(x)$ y $p(y)$ denotan las distribuciones marginales sobre $X$ y $Y$ respectivamente.

La información mutua entre $X$ y $Y$ se define como: $$I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right)$$

es decir, es el valor medio de la información mutua puntual pmi $(x,y) \equiv \log\left(\frac{p(x,y)}{p(x)p(y)}\right)$ .

Supongamos que conozco los límites superior e inferior de pmi $(x,y)$ es decir, sé que para todos $x,y$ se cumple lo siguiente: $$-k \leq \log\left(\frac{p(x,y)}{p(x)p(y)}\right) \leq k$$

¿Qué límite superior implica esto para $I(X; Y)$ . Por supuesto que implica $I(X; Y) \leq k$ pero me gustaría un límite más estrecho si es posible. Esto me parece plausible porque p define una distribución de probabilidad, y pmi $(x,y)$ no puede tomar su valor máximo (ni siquiera ser no negativo) para cada valor de $x$ y $y$ .

6voto

Nathan Long Puntos 30303

Mi contribución consiste en un ejemplo. Ilustra algunos límites sobre cómo se puede acotar la información mutua dados los límites de la información mutua puntual.

Toma $X = Y = \{1,\ldots, n\}$ y $p(x) = 1/n$ para todos $x \in X$ . Para cualquier $m \in \{1,\ldots, n/2\}$ deje $k > 0$ sea la solución de la ecuación $$m e^{k} + (n - m) e^{-k} = n.$$ A continuación colocamos la masa puntual $e^k / n^2$ en $nm$ puntos del espacio producto $\{1,\ldots,n\}^2$ de tal manera que haya $m$ de estos puntos en cada fila y cada columna. (Esto puede hacerse de varias maneras. Empiece, por ejemplo, por el primer $m$ puntos de la primera fila y, a continuación, rellenar las filas restantes desplazando los $m$ puntos uno a la derecha con una condición de contorno cíclica para cada fila). Colocamos la masa puntual $e^{-k}/n^2$ en el resto $n^2 - nm$ puntos. La suma de estas masas puntuales es $$\frac{nm}{n^2} e^{k} + \frac{n^2 - nm}{n^2} e^{-k} = \frac{me^k + (n-m)e^{-k}}{n} = 1,$$ por lo que dan una medida de probabilidad. Todas las probabilidades marginales puntuales son $$\frac{m}{n^2} e^{k} + \frac{m - n}{n^2} e^{-k} = \frac{1}{n},$$ por lo que ambas distribuciones marginales son uniformes.

Por la construcción está claro que $\mathrm{pmi}(x,y) \in \{-k,k\},$ para todos $x,y \in \{1,\ldots,n\}$ y (tras algunos cálculos) $$I(X;Y) = k \frac{nm}{n^2} e^{k} - k \frac{n^2 - nm}{n^2} e^{-k} = k\Big(\frac{1-e^{-k}}{e^k - e^{-k}} (e^k + e^{-k}) - e^{-k}\Big),$$ con la información mutua comportándose como $k^2 / 2$ para $k \to 0$ y como $k$ para $k \to \infty$ .

1voto

geni Puntos 91

No estoy seguro de si esto es lo que está buscando, ya que es sobre todo algebraica y no realmente el aprovechamiento de las propiedades de p es una distribución de probabilidad, pero aquí es algo que usted puede intentar.

Debido a los límites de pmi, claramente $\frac{p(x,y)}{p(x)p(y)}\leq e^k$ y así $p(x,y)\leq p(x)p(y)\cdot e^k$ . Podemos sustituir $p(x,y)$ en $I(X;Y)$ para obtener $I(X;Y)\leq \sum_{x,y}p(x)p(y)\cdot e^k\cdot log(\frac{p(x)p(y)\cdot e^k}{p(x)p(y)}) = \sum_{x,y}p(x)p(y)\cdot e^k\cdot k$

No estoy seguro de si eso es útil o no.

EDIT: Tras revisarlo, creo que en realidad es menos útil que el límite superior original de k. No obstante, no lo borraré por si puede servir de punto de partida.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X