Escribí un clasificador Naive Bayes y quiero poder probar cuánta información da una variable sobre otra. La idea es utilizar las más ortogonales y evitar el uso de variables altamente redundantes.
Mi idea era utilizar la información mutua, pero he descubierto que no está tan claro como pensaba al principio. Por ejemplo, si mis variables son X = { 1, 2, 3, 4 } e Y = { 9, 10, 11, 12 }, entonces la información mutua parece ser 2. Pero si X = { 1, 2, 3, 4, 5, 6, 7, 8 } e Y = { 9, 10, 11, 12, 13, 14, 15, 16 }, entonces la información mutua es 3. En ambos casos, sin embargo, si estos números son listas (como las columnas de una base de datos o una hoja de cálculo), entonces X = 1 siempre estará emparejado con Y = 9, etc., lo que significa que conocer uno siempre te dirá el valor del otro. Entonces, si en ambos casos hay una correspondencia de 1 a 1 entre X e Y y la información mutua es diferente, ¿qué utilidad tiene la información mutua para determinar cuánto se sabe de una variable conociendo la otra?
¿Alguna cantidad como $$\frac{H(X,Y)}{H(X) + H(Y)}$$ o $$\frac{H(X,Y)}{I(X,Y)}$$ ¿funciona mejor? ¿Alguien tiene experiencia en la determinación de cuánto le dirá una variable a otra?
He aquí un resumen de los dos ejemplos.
Ejemplo 1
- X = { 1, 2, 3, 4 }
- Y = { 9, 10, 11, 12 }
- H(X) = 2
- H(Y) = 2
- H(X,Y) = 2
- I(X,Y) = 2
- H(X,Y) / (H(X) + H(Y)) = 0,5
- H(X,Y) / I(X,Y) = 1,0
Ejemplo 2
- X = { 1, 2, 3, 4, 5, 6, 7, 8 }
- Y = { 9, 10, 11, 12, 13, 14, 15, 16 }
- H(X) = 3
- H(Y) = 3
- H(X,Y) = 3
- I(X,Y) = 3
- H(X,Y) / (H(X) + H(Y)) = 0,5
- H(X,Y) / I(X,Y) = 1,0