Estoy implementando el algoritmo k-means (en R Map-Reduce) y quería verificar si la salida que estoy obteniendo se acerca lo suficiente a los verdaderos centroides del cluster. Así es como estoy verificando con un conjunto de datos 2D actualmente: Trazo tanto el conjunto de datos como los centroides que tengo como salida y veo si los centroides están cerca del centro de los clusters visualmente. Creo que también puedo hacerlo con datos en 3D. Pero no sé cómo verificar esto con datos de mayor dimensión que no pueden ser trazados.
Parece realmente estúpido trazar los datos y verificarlos visualmente cada vez, ¿verdad? Así que déjame decirte por qué estoy haciendo esto:
Los centroides no vienen en un orden determinado. El primer centroide en este ensayo puede estar en la segunda posición en el siguiente, así que no puedo encontrar la distancia entre la matriz de mi salida y la matriz de, digamos, la salida por defecto de R de kmeans (si estoy verificando mi salida con la de R kmeans ). Ordenar con respecto a cualquier dimensión para comparar suena estúpido, ya que cualquier dimensión puede ser mucho más sensible a los datos cuando se compara con otra.
Así que, por ahora, estoy verificando los datos 2D visualmente. ¿Tengo que utilizar la reducción de la dimensionalidad? ¿Alguien tiene ideas sobre cómo puedo verificar datos de mayor dimensión?