5 votos

¿Cómo puedo comparar los siguientes valores de información mutua?

¿Cómo puedo comparar los siguientes valores de información mutua? Me pregunto cuál es la forma más adecuada de mostrarlos en mi tabla de informes.

Los calculo con esta fórmula http://d.pr/chkK

donde e y c son clusters y la intersección es el número de elementos en común.

Para cada pareja e y c tengo un valor I (información mutua). Sucesivamente hago la media de todos los e que pertenecen a la misma categoría (no aparece en la fórmula) y termino con una tabla como:

cat1 0.0123
cat2 0.0012
cat3 0.0009
cat4 0.0100
...

Los valores de dependencia mutua suelen ser muy bajos (alrededor de 0,01), porque n (cantidad total de documentos en la colección) es muy alto.

¿Debo utilizar otra medida, o... qué sugieres?

gracias

8voto

dan gibson Puntos 1580

¿Busca la información mutua entre dos agrupaciones? Marina Meila ha introducido la métrica de "variación de información" basada en la información mutua (véase, por ejemplo http://www.stat.washington.edu/mmp/Papers/icml05-compare-axioms.pdf ). Sería muy apropiado utilizarlo. También habla de distancias métricas alternativas entre agrupaciones. Una de ellas (la distancia de división/unión) es un poco más fácil de interpretar como el número de nodos que necesitan reorganizarse entre agrupaciones.

Alternativamente, si no busca una comparación de agrupamiento, sino que está más interesado en los eventos individuales, puede considerar el uso del valor P hipergeométrico para considerar la importancia de los tamaños de intersección entre los conjuntos.

5voto

ctcherry Puntos 15112

La información mutua mide la independencia entre dos variables aleatorias y es máxima cuando estas variables aleatorias covarían [T. M. Mitchell, Machine Learning. McGraw-Hill Science/Engineering/Math](Disponible: http://www.worldcat.org/isbn/0070428077 ).

Sin embargo, no estoy seguro de haber entendido bien su pregunta. ¿Es n el número total de clusters? (Ha utilizado el término número de documentos).

Si hay muchos conglomerados y los elementos que se comparan no covarían en muchos o en la mayoría de ellos, entonces la información mutua será baja en la mayoría de ellos y al utilizar la media (promedio) se podrían obtener valores pequeños como resultados.

Posiblemente, cambiar la forma de representar este problema o utilizar una medida diferente podría permitirle analizar mejor el fenómeno de los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X