Validación de los resultados de la agrupación

Question

Validación de los resultados de la agrupación

Preguntado el 14 de Septiembre, 2011: Cuando se hizo la pregunta
1159 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

He de datos que contiene varias columnas que más tarde se reduce el uso de un PCA algoritmos para dos diferentes componentes. Luego aplica el k-means algoritmos a los datos.
Ahora, ¿cómo puedo comprobar que mis datos se agrupan bien en cada grupo? O ¿cómo puedo determinar la tasa de error en la clasificación?

Por ejemplo, el uso de R, si el clúster vector dicen k$clúster en contra de las etiquetas de los datos que previamente había antes de la agrupación puedo dibujar una matriz de confusión de eso y asumir que 1 en el clúster de vectores es equivalente a 1 en las etiquetas?

col3    col2     Col1   lables                                           
123     2.32      2.50    0           
124    2.81      3.10     1     
125    2.72      3.09     2     
126    2.92      3.03     3     
127    2.32      2.95     4

Por favor nota: esta es una hipotética de datos; los datos de mi es mucho más que esto.

Preguntado el 14 de Septiembre, 2011 por Effata

Answer 1

2 Respuestas

Answer 2

2voto

Ram Prasad Puntos 256

Un enfoque clásico es el ajustado índice Rand, que es una oportunidad-corregido medida de similitud entre dos particiones (una agrupación es, después de todo, una partición). Esto ya se ha implementado en R, en el mclust paquete (ver aquí). Este valor ajustado índice Rand siempre se encuentra entre -1 y 1, y el índice no es una métrica (por ejemplo, no satisfacen la desigualdad de triángulo). Tiene la propiedad de ser capaz de comparar las particiones de diferentes tamaños (es decir, conglomerados que contienen diferentes números de clusters).

Respondido el 14 de Diciembre, 2011 por Ram Prasad (256 Puntos )

Answer 3

0voto

dan gibson Puntos 1580

Si usted tiene un a priori de la clasificación en grupos, usted no debe confiar en las etiquetas idénticas entre el a priori de la clasificación y en la que se obtuvieron. Me gustaría empezar por calcular la distancia entre los dos conglomerados (el tratamiento de la clasificación como un agrupamiento) mediante una métrica la distancia entre los conglomerados. Todos estos parámetros pueden ser normalmente de derivados de la matriz de confusión sólo, y por lo tanto no dependen de las etiquetas más allá de sus indicando la uniformidad de la agrupación en una sola agrupación. Generalmente, recomiendo la Comparación de conglomerados por la variación de la información por Marina Meila. Se analizan tres métricas: la principal contribución de la de papel, la variación de la información (que es muy buena), la .. Mirkin distancia (en relación con el índice de Jaccard, bien conocidos, pero no tan bueno como se ve afectada en un quadratical manera por tamaños de clúster), y el split/join distancia (Meila llama "van Dongen' a pie). Descargo de responsabilidad: la última fue desarrollado por mí. Tiene la ventaja de que se pueden interpretar como el número de nodos que necesitan reasignación a cambio de una agrupación o clasificación dentro de la otra. Hay muchos otros clústeres (dis)medidas de similitud, pero yo sólo recomendaría estos tres, y aunque es popular, yo no recomendaría el de Jaccard/ .. Mirkin medidas.

Respondido el 15 de Septiembre, 2011 por dan gibson (1580 Puntos )

Validación de los resultados de la agrupación

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Validación de los resultados de la agrupación

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: