He implementado algunos internos de la agrupación de validez de los índices en Java:
- Simplificado De La Silueta.
- Calinski-Harabasz (VRC).
- Davies -Bouldin.
- Dunn Índice.
¿Cómo puedo verificar si mi aplicación es la correcta?
He probado los índices de Iris, el Vino, la Ionosfera, el Corazón, el Sónar, el Zoo de Cristal y puntos de referencia.
Yo solía K-means el algoritmo con diferentes número de racimos de 2 a 8.
El problema es: Puedo obtener las mejores puntuaciones en las particiones con 2 grupos en la mayoría de los casos. En el Zoológico de Cristal y conjuntos de datos, en la que el número real de los grupos es de 7, sólo uno de los índices de las puntuaciones de los mejores en el caso en que k=7.
Si que es importante mencionar:
- K-means (Trickl-Clúster de la Aplicación), los resultados son idénticos a Weka de salida (probado en el iris del conjunto de datos).
- El cálculo de los centroides (medias de los grupos) es casi idéntica a Weka la salida.
- El utilizar la API para realizar cálculos con Matrices es Colt (computación en la norma, las operaciones en matrices de distancias entre los centroides de los clusters...).
Qué tiene de malo?