9 votos

Análisis de conglomerados seguido de un análisis discriminante

¿Cuál es la razón, si es que la hay, para utilizar el Análisis Discriminatorio (DA) en los resultados de un algoritmo de agrupación como el k-means, tal y como lo veo de vez en cuando en la literatura (esencialmente en la subtipificación clínica de los trastornos mentales)?

Generalmente no se recomienda probar las diferencias de grupo en las variables que se utilizaron durante la construcción del grupo, ya que apoyan la maximización (o minimización) de la inercia entre las clases (o dentro de las clases). Por lo tanto, no estoy seguro de apreciar plenamente el valor añadido del DA predictivo, a menos que busquemos incrustar a los individuos en un espacio factorial de menor dimensión y nos hagamos una idea de la "generalizabilidad" de tal partición. Pero incluso en este caso, el análisis de conglomerados sigue siendo fundamentalmente una herramienta exploratoria, por lo que utilizar la pertenencia a una clase computada de esta manera para derivar una regla de puntuación parece extraño a primera vista.

¿Alguna recomendación, idea o indicación sobre los documentos pertinentes?

8voto

Rob Wells Puntos 361

No conozco ningún documento al respecto. He utilizado este enfoque, con fines descriptivos. DFA proporciona una manera agradable de resumir las diferencias de grupo y la dimensionalidad con respecto a las variables originales. Uno podría más fácilmente perfilar los grupos en las variables originales, sin embargo, esto pierde la naturaleza inherentemente multivariada del problema de agrupamiento. El DFA permite describir los grupos manteniendo intacto el carácter multivariante del problema. Por lo tanto, puede ayudar con la interpretación de los conglomerados, cuando ese es un objetivo. Esto es particularmente ideal cuando hay una estrecha relación entre su método de agrupación y su método de clasificación - por ejemplo, DFA y el método de Ward.

Tiene razón sobre el problema de las pruebas. Publiqué un artículo utilizando el Análisis Cluster con seguimiento DFA para describir la solución de clustering. Presenté los resultados del AFD sin estadísticas de prueba. Un revisor no estuvo de acuerdo. Cedí y puse las estadísticas de prueba y los valores p, con la advertencia de que estos valores p no deben interpretarse de la manera tradicional.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X