Estoy inspeccionando el uso de pruebas de significación estadística (SST) para validar los resultados de los análisis de cluster. He encontrado varios artículos en torno a este tema, tales como
- "La Significación estadística de la agrupación en Clústeres de Alta Dimensión, de Bajo Tamaño de la Muestra de Datos" por Liu, Yufeng et al. (2008)
- "En algunas pruebas de significación en el análisis de cluster", por Bock (1985)
Pero estoy interesado en la búsqueda de la literatura, argumentando que la SST es NO apropiado para validar los resultados del análisis de cluster. La única fuente que he encontrado, alegan que este es una página web de un proveedor de software de
Para aclarar:
Estoy interesado en probar si una importante estructura de cluster se ha encontrado como resultado del análisis de cluster, así que, me gustaría saber de documentos de apoyo o refutación de la preocupación "acerca de la posibilidad de post-hoc de las pruebas de los resultados de análisis exploratorio de datos utilizadas para encontrar cúmulos".
Acabo de encontrar un artículo de 2003, "de la Agrupación y clasificación de los métodos de" por Milligan y Hirtle diciendo, por ejemplo, que el uso de ANOVA sería un inválido análisis, ya que los datos no han aleatoria de las asignaciones a los grupos.