¿Por qué y cuándo debemos utilizar la información mutua en lugar de medidas de correlación estadística como "Pearson", "spearman" o "tau de Kendall"?
@ Alecos Papadopoulos; Gracias por su exhaustiva respuesta.
¿Por qué y cuándo debemos utilizar la información mutua en lugar de medidas de correlación estadística como "Pearson", "spearman" o "tau de Kendall"?
Consideremos un concepto fundamental de la correlación (lineal), la covarianza (que es el coeficiente de correlación de Pearson "no estandarizado"). Para dos variables aleatorias discretas $X$ y $Y$ con funciones de masa de probabilidad $p(x)$ , $p(y)$ y el pmf conjunto $p(x,y)$ tenemos
$$\operatorname{Cov}(X,Y) = E(XY) - E(X)E(Y) = \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right)$$
$$\Rightarrow \operatorname{Cov}(X,Y) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy$$
La información mutua entre ambos se define como
$$I(X,Y) = E\left (\ln \frac{p(x,y)}{p(x)p(y)}\right)=\sum_{x,y}p(x,y)\left[\ln p(x,y)-\ln p(x)p(y)\right]$$
Compara los dos: cada uno contiene una "medida" puntual de "la distancia de los dos rv de la independencia" tal y como se expresa por la distancia de la pmf conjunta del producto de las pmf marginales: la $\operatorname{Cov}(X,Y)$ lo tiene como diferencia de niveles, mientras que $I(X,Y)$ lo tiene como diferencia de logaritmos.
¿Y qué hacen estas medidas? En $\operatorname{Cov}(X,Y)$ crean una suma ponderada del producto de las dos variables aleatorias. En $I(X,Y)$ crean una suma ponderada de sus probabilidades conjuntas.
Así que con $\operatorname{Cov}(X,Y)$ nos fijamos en lo que la no independencia hace a su producto, mientras que en $I(X,Y)$ observamos lo que la no independencia hace a su distribución de probabilidad conjunta.
Al revés, $I(X,Y)$ es el valor medio de la medida logarítmica de la distancia a la independencia, mientras que $\operatorname{Cov}(X,Y)$ es el valor ponderado de la medida de niveles de independencia, ponderado por el producto de los dos rv's.
Por lo tanto, ambas no son antagónicas, sino que se complementan, describiendo diferentes aspectos de la asociación entre dos variables aleatorias. Se podría comentar que la información mutua "no se preocupa" de si la asociación es lineal o no, mientras que la covarianza puede ser cero y las variables pueden seguir siendo estocásticamente dependientes. Por otra parte, la Covarianza puede calcularse directamente a partir de una muestra de datos sin necesidad de conocer realmente las distribuciones de probabilidad implicadas (ya que es una expresión que implica momentos de la distribución), mientras que la Información Mutua requiere conocer las distribuciones, cuya estimación, si se desconoce, es un trabajo mucho más delicado e incierto en comparación con la estimación de la Covarianza.
Yo me preguntaba lo mismo pero no he entendido del todo la respuesta. @ Alecos Papadopoulos: He entendido que la dependencia medida no es la misma, de acuerdo. Entonces, ¿para qué tipo de relaciones entre X e Y deberíamos preferir la información mutua I(X,Y) en lugar de Cov(X,Y)? Hace poco tuve un ejemplo extraño en el que Y dependía casi linealmente de X (era casi una línea recta en un gráfico de dispersión) y Corr(X,Y) fue igual a 0,87 mientras que I(X,Y) era igual a 0,45 . Entonces, ¿hay claramente algunos casos en los que un indicador debe ser elegido sobre el otro? ¡Gracias por la ayuda!
He aquí un ejemplo.
En estos dos gráficos el coeficiente de correlación es cero. Pero podemos obtener una alta información mutua compartida incluso cuando la correlación es cero.
En el primero, veo que si tengo un valor alto o bajo de X, entonces es probable que obtenga un valor alto de Y. Pero si el valor de X es moderado, entonces tengo un valor bajo de Y. El primer gráfico contiene información sobre la información mutua que comparten X e Y. En el segundo gráfico, X no me dice nada sobre Y.
La información mutua es una distancia entre dos distribuciones de probabilidad. La correlación es una lineal distancia entre dos variables aleatorias.
Se puede tener una información mutua entre dos probabilidades cualesquiera definidas para un conjunto de símbolos, mientras que no se puede tener una correlación entre símbolos que no se pueden mapear naturalmente en un espacio R^N.
Por otro lado, la información mutua no hace suposiciones sobre algunas propiedades de las variables... Si se trabaja con variables que son suaves, la correlación puede decir más sobre ellas; por ejemplo, si su relación es monótona.
Si tiene alguna información previa, puede pasar de una a otra; en los historiales médicos puede mapear los símbolos "tiene genotipo A" como 1 y "no tiene genotipo A" en valores 0 y 1 y ver si esto tiene algún tipo de correlación con una u otra enfermedad. Del mismo modo, se puede tomar una variable que sea continua (por ejemplo, el salario), convertirla en categorías discretas y calcular la información mutua entre esas categorías y otro conjunto de símbolos.
La información mutua (IM) utiliza el concepto de entropía para especificar cuánta certeza común hay en dos muestras de datos $X$ y $Y$ con funciones de distribución $p_{x}(x)$ y $p_y(y)$ . Teniendo en cuenta esta interpretación del MI: $$I(X:Y) = H(X) + H(Y) - H(X,Y)$$ vemos que la última parte dice sobre la dependencia de las variables. En caso de independencia el IM es cero y en caso de consistencia entre $X$ y $Y$ el IM es igual a la entropía de $X$ o $Y$ . Aunque, la covarianza mide sólo la distancia de cada muestra de datos $(x,y)$ de la media ( $\mu_X, \mu_Y)$ . Por lo tanto, Cov es sólo una parte del IM. Otra diferencia es la información adicional que puede aportar Cov sobre el signo de Cov. Este tipo de conocimiento no puede extraerse del IM debido a la función logarítmica.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.