15 votos

Utilizando la prueba de significación estadística para validar los resultados del análisis cluster

Estoy inspeccionando el uso de pruebas de significación estadística (SST) para validar los resultados de los análisis de cluster. He encontrado varios artículos en torno a este tema, tales como

  • "La Significación estadística de la agrupación en Clústeres de Alta Dimensión, de Bajo Tamaño de la Muestra de Datos" por Liu, Yufeng et al. (2008)
  • "En algunas pruebas de significación en el análisis de cluster", por Bock (1985)

Pero estoy interesado en la búsqueda de la literatura, argumentando que la SST es NO apropiado para validar los resultados del análisis de cluster. La única fuente que he encontrado, alegan que este es una página web de un proveedor de software de

Para aclarar:

Estoy interesado en probar si una importante estructura de cluster se ha encontrado como resultado del análisis de cluster, así que, me gustaría saber de documentos de apoyo o refutación de la preocupación "acerca de la posibilidad de post-hoc de las pruebas de los resultados de análisis exploratorio de datos utilizadas para encontrar cúmulos".

Acabo de encontrar un artículo de 2003, "de la Agrupación y clasificación de los métodos de" por Milligan y Hirtle diciendo, por ejemplo, que el uso de ANOVA sería un inválido análisis, ya que los datos no han aleatoria de las asignaciones a los grupos.

5voto

JohnRos Puntos 3211

Es bastante obvio que usted no puede (ingenuamente) prueba para la diferencia en las distribuciones de los grupos que fueron definidos con los mismos datos. Esto se conoce como "pruebas selectivas", "doble inmersión", "circular de inferencia", etc.

Un ejemplo sería la realización de una prueba t, en las alturas de "alto" y "corto" a la gente en sus datos. La nula voluntad (casi) siempre será rechazada.

Habiendo dicho eso - uno puede, de hecho, cuenta para la agrupación, etapa en la fase de pruebas. No estoy familiarizado, sin embargo, con una referencia particular que hace eso, pero sospecho que esto debería haber hecho.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X