¿Cómo puedo comparar los siguientes valores de información mutua? Me pregunto cuál es la forma más adecuada de mostrarlos en mi tabla de informes.
Los calculo con esta fórmula
donde e y c son clusters y la intersección es el número de elementos en común.
Para cada pareja e y c tengo un valor I (información mutua). Sucesivamente hago la media de todos los e que pertenecen a la misma categoría (no aparece en la fórmula) y termino con una tabla como:
cat1 0.0123
cat2 0.0012
cat3 0.0009
cat4 0.0100
...
Los valores de dependencia mutua suelen ser muy bajos (alrededor de 0,01), porque n (cantidad total de documentos en la colección) es muy alto.
¿Debo utilizar otra medida, o... qué sugieres?
gracias