2 votos

El análisis de conglomerados como análisis preliminar

Quiero producir cuatro grupos (alto/alto, alto/bajo, bajo/alto y bajo/bajo) utilizando dos variables continuas y comparar estos grupos en términos de algunas variables dependientes. Sé que el análisis de conglomerados (k-means y jerárquico) es un tipo de análisis "final" cuyo objetivo principal es llegar a dichos conglomerados y luego discutir la naturaleza de los mismos. Sin embargo, estoy dispuesto a utilizar esta técnica (k-means utilizando k=4) como una especie de análisis preliminar para producir los grupos. Sé que el diagrama de dispersión y las divisiones de medias son otras alternativas, pero tienen sus propias desventajas que el análisis de conglomerados puede resolver. ¿Qué opinas?

1voto

Amadiere Puntos 5606

Si tiene un objetivo predefinido como sus divisiones altas/bajas, no utilice el análisis de conglomerados en absoluto. En lugar de ello, divida los datos en sus cuatro intervalos predefinidos (tal vez utilizando cuantiles como la mediana para definir la división) También puede utilizar más de dos intervalos, por ejemplo, bajo/normal/alto de esta manera.

La ventaja es que los resultados serán fáciles de entender. Con el análisis de conglomerados, es probable que tenga que realizar otro análisis para entender por qué agrupó los datos de la forma en que lo hizo.

El análisis de conglomerados nunca debe ser el análisis "final". Es un paso intermedio para comprender los datos, pero no aporta ningún otro resultado utilizable, salvo una mejora. conocimiento de sus datos. Si ejecuta el análisis de conglomerados, a continuación deberá analizar los conglomerados encontrados, y lo más probable es que tenga que repetirlo varias veces.

0voto

Sean Hanley Puntos 2428

Está bien utilizar el análisis de conglomerados como análisis preliminar. Sin embargo, no veo cómo el uso de AC resolverá cualquiera de las desventajas de utilizar (digamos) las divisiones de la mediana. A menos que el verdadero proceso de generación de datos sea que hay cuatro grupos latentes que se identifican exactamente por la agrupación, y que difieren en la media $Y$ pero no difieren en función de su $X_1$ y $X_2$ valores, le será más útil retroceder $Y$ en $X_1$ y $X_2$ (y posiblemente la interacción) directamente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X