5 votos

Validación de los resultados de la agrupación

He de datos que contiene varias columnas que más tarde se reduce el uso de un PCA algoritmos para dos diferentes componentes. Luego aplica el k-means algoritmos a los datos.
Ahora, ¿cómo puedo comprobar que mis datos se agrupan bien en cada grupo? O ¿cómo puedo determinar la tasa de error en la clasificación?

Por ejemplo, el uso de R, si el clúster vector dicen k$clúster en contra de las etiquetas de los datos que previamente había antes de la agrupación puedo dibujar una matriz de confusión de eso y asumir que 1 en el clúster de vectores es equivalente a 1 en las etiquetas?

col3    col2     Col1   lables                                           
123     2.32      2.50    0           
124    2.81      3.10     1     
125    2.72      3.09     2     
126    2.92      3.03     3     
127    2.32      2.95     4     

Por favor nota: esta es una hipotética de datos; los datos de mi es mucho más que esto.

2voto

Ram Prasad Puntos 256

Un enfoque clásico es el ajustado índice Rand, que es una oportunidad-corregido medida de similitud entre dos particiones (una agrupación es, después de todo, una partición). Esto ya se ha implementado en R, en el mclust paquete (ver aquí). Este valor ajustado índice Rand siempre se encuentra entre -1 y 1, y el índice no es una métrica (por ejemplo, no satisfacen la desigualdad de triángulo). Tiene la propiedad de ser capaz de comparar las particiones de diferentes tamaños (es decir, conglomerados que contienen diferentes números de clusters).

0voto

dan gibson Puntos 1580

Si usted tiene un a priori de la clasificación en grupos, usted no debe confiar en las etiquetas idénticas entre el a priori de la clasificación y en la que se obtuvieron. Me gustaría empezar por calcular la distancia entre los dos conglomerados (el tratamiento de la clasificación como un agrupamiento) mediante una métrica la distancia entre los conglomerados. Todos estos parámetros pueden ser normalmente de derivados de la matriz de confusión sólo, y por lo tanto no dependen de las etiquetas más allá de sus indicando la uniformidad de la agrupación en una sola agrupación. Generalmente, recomiendo la Comparación de conglomerados por la variación de la información por Marina Meila. Se analizan tres métricas: la principal contribución de la de papel, la variación de la información (que es muy buena), la .. Mirkin distancia (en relación con el índice de Jaccard, bien conocidos, pero no tan bueno como se ve afectada en un quadratical manera por tamaños de clúster), y el split/join distancia (Meila llama "van Dongen' a pie). Descargo de responsabilidad: la última fue desarrollado por mí. Tiene la ventaja de que se pueden interpretar como el número de nodos que necesitan reasignación a cambio de una agrupación o clasificación dentro de la otra. Hay muchos otros clústeres (dis)medidas de similitud, pero yo sólo recomendaría estos tres, y aunque es popular, yo no recomendaría el de Jaccard/ .. Mirkin medidas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X