He de datos que contiene varias columnas que más tarde se reduce el uso de un PCA algoritmos para dos diferentes componentes. Luego aplica el k-means algoritmos a los datos.
Ahora, ¿cómo puedo comprobar que mis datos se agrupan bien en cada grupo? O ¿cómo puedo determinar la tasa de error en la clasificación?
Por ejemplo, el uso de R, si el clúster vector dicen k$clúster en contra de las etiquetas de los datos que previamente había antes de la agrupación puedo dibujar una matriz de confusión de eso y asumir que 1 en el clúster de vectores es equivalente a 1 en las etiquetas?
col3 col2 Col1 lables
123 2.32 2.50 0
124 2.81 3.10 1
125 2.72 3.09 2
126 2.92 3.03 3
127 2.32 2.95 4
Por favor nota: esta es una hipotética de datos; los datos de mi es mucho más que esto.