2 votos

se puede utilizar la información mutua para determinar cuánto dice una variable sobre otra

Escribí un clasificador Naive Bayes y quiero poder probar cuánta información da una variable sobre otra. La idea es utilizar las más ortogonales y evitar el uso de variables altamente redundantes.

Mi idea era utilizar la información mutua, pero he descubierto que no está tan claro como pensaba al principio. Por ejemplo, si mis variables son X = { 1, 2, 3, 4 } e Y = { 9, 10, 11, 12 }, entonces la información mutua parece ser 2. Pero si X = { 1, 2, 3, 4, 5, 6, 7, 8 } e Y = { 9, 10, 11, 12, 13, 14, 15, 16 }, entonces la información mutua es 3. En ambos casos, sin embargo, si estos números son listas (como las columnas de una base de datos o una hoja de cálculo), entonces X = 1 siempre estará emparejado con Y = 9, etc., lo que significa que conocer uno siempre te dirá el valor del otro. Entonces, si en ambos casos hay una correspondencia de 1 a 1 entre X e Y y la información mutua es diferente, ¿qué utilidad tiene la información mutua para determinar cuánto se sabe de una variable conociendo la otra?

¿Alguna cantidad como $$\frac{H(X,Y)}{H(X) + H(Y)}$$ o $$\frac{H(X,Y)}{I(X,Y)}$$ ¿funciona mejor? ¿Alguien tiene experiencia en la determinación de cuánto le dirá una variable a otra?

He aquí un resumen de los dos ejemplos.

Ejemplo 1

  • X = { 1, 2, 3, 4 }
  • Y = { 9, 10, 11, 12 }
  • H(X) = 2
  • H(Y) = 2
  • H(X,Y) = 2
  • I(X,Y) = 2
  • H(X,Y) / (H(X) + H(Y)) = 0,5
  • H(X,Y) / I(X,Y) = 1,0

Ejemplo 2

  • X = { 1, 2, 3, 4, 5, 6, 7, 8 }
  • Y = { 9, 10, 11, 12, 13, 14, 15, 16 }
  • H(X) = 3
  • H(Y) = 3
  • H(X,Y) = 3
  • I(X,Y) = 3
  • H(X,Y) / (H(X) + H(Y)) = 0,5
    • H(X,Y) / I(X,Y) = 1,0

4voto

Kuro Puntos 81

Sí, se puede utilizar la información mutua para determinar cuánto nos dice una variable sobre otra; de hecho, ése es el objetivo exacto de la información mutua.

La razón de los diferentes resultados en los dos ejemplos es que en el segundo tienes más valores posibles para cada variable, lo que significa que hay más información para obtener sobre ella.

Supongo que has utilizado el logaritmo de base 2, de forma que la información se mide en bits. En el ejemplo 1 hay 4 valores posibles, cada uno de ellos con la misma probabilidad, lo que significa conocer el valor de $X$ o de $Y$ constituye una cantidad de información de $\log_2 4 = 2$ bits. Dado que existe una correspondencia de uno a uno, conocer el valor de $X$ significa conocer exactamente el valor de $Y$ (y viceversa), lo que significa que el valor de $X$ no sólo constituye 2 bits sobre $X$ pero también 2 bits sobre $Y$ (y viceversa).

En el ejemplo 2 hay 8 valores posibles, lo que significa saber $X$ o $Y$ constituye $\log_2 8 = 3$ bits, y de nuevo hay una correspondencia de uno a uno, por lo que conocer $X$ te dice 3 bits sobre $Y$ (y viceversa).

Por lo tanto, el resultado formal del IM tiene mucho sentido.

-1voto

Taskinen Puntos 110

La entropía relativa (o divergencia de Kullback-Leibler ) es la cantidad adecuada para medir cuánto dice una variable sobre otra. La entropía relativa es, a diferencia de la información mutua, asimétrica. Es decir, es posible que el conocimiento de una variable A lo diga todo sobre otra variable B, incluso que el conocimiento de B no diga nada sobre A.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X