Tengo un conjunto de datos muy grande con 9000 observaciones y 25 variables categóricas, que he transformado en datos binarios y he preformado clustering jerárquico y clustering K-modes en R.
library(klaR)
cluster <- list()
for(k in 1:8)
{
cluster[[paste0("k.", k)]] <- kmodes(data, k,iter.max=100)
}
Me gustaría saber
1) si es mejor especificar el número de modos k
(donde el algoritmo elige un conjunto aleatorio de filas distintas de los datos como modos iniciales) o especificar yo mismo los valores/modos iniciales de partida (darle un conjunto de modos de conglomerados distintos iniciales en sustitución de k
). Si es lo segundo, ¿cómo se deciden los modos iniciales significativos? Por ejemplo, para k=4
¿puedo especificar que los modos iniciales sean 4 filas de la salida de la agrupación jerárquica binaria donde corto el árbol en k=4
?
2) cuántas veces debo ejecutar el algoritmo y
3) si 100 iteraciones son suficientes.