6 votos

¿Por qué divergencia KL no se utiliza como una medida para comparar clusterings?

En la literatura de la detección de la comunidad hay varias medidas bases en los principios de la teoría de la información (información mutua normalizado, variación de la información) que se utilizan para comparar las particiones. Me pregunto por qué divergencia KL no es popular para comparación mientras que compara dos distribuciones probabilísticas similares a los racimos.

1voto

Amadiere Puntos 5606

Divergencia de KL asume que usted sabe que el racimo es que etiqueta. Pero ¿qué pasa si el número de grupos y clases no es lo mismo? Un buen agrupamiento puede necesitar para dividir una clase en dos partes, si los datos tienen una estructura. Además, KL es asimétrica.

NMI está estrechamente relacionado con, pero como compara cada cluster en cada etiqueta, no tienes el problema de los grupos de asignación a las clases.

1voto

DJohnson Puntos 1347

El OP ha enunciado de su pregunta en términos de "popularidad". Esto puede no ser la manera correcta de pensar sobre el uso de la divergencia KL wrt de la agrupación. De hecho, KL métricas son utilizadas en la teoría de la información y la complejidad de clúster basado en algoritmos, pero la evaluación de la 'popularidad' de este tipo de rutinas sería difícil.

Permutación de distribución de la agrupación es uno de la rutina. PDC se describe en varios de los documentos. Aquí hay un enlace a la PDC R módulo que contiene una descripción de la utilización de la divergencia KL ... https://cran.r-project.org/web/packages/pdc/pdc.pdf

Luego hay Eamonn Keogh el SAXO y iSAX rutinas, que son similares a PDC, pero bien puede ser más "populares" ... http://www.cs.ucr.edu/~eamonn/SAX.htm

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X