Quiero producir cuatro grupos (alto/alto, alto/bajo, bajo/alto y bajo/bajo) utilizando dos variables continuas y comparar estos grupos en términos de algunas variables dependientes. Sé que el análisis de conglomerados (k-means y jerárquico) es un tipo de análisis "final" cuyo objetivo principal es llegar a dichos conglomerados y luego discutir la naturaleza de los mismos. Sin embargo, estoy dispuesto a utilizar esta técnica (k-means utilizando k=4) como una especie de análisis preliminar para producir los grupos. Sé que el diagrama de dispersión y las divisiones de medias son otras alternativas, pero tienen sus propias desventajas que el análisis de conglomerados puede resolver. ¿Qué opinas?
Respuestas
¿Demasiados anuncios?Si tiene un objetivo predefinido como sus divisiones altas/bajas, no utilice el análisis de conglomerados en absoluto. En lugar de ello, divida los datos en sus cuatro intervalos predefinidos (tal vez utilizando cuantiles como la mediana para definir la división) También puede utilizar más de dos intervalos, por ejemplo, bajo/normal/alto de esta manera.
La ventaja es que los resultados serán fáciles de entender. Con el análisis de conglomerados, es probable que tenga que realizar otro análisis para entender por qué agrupó los datos de la forma en que lo hizo.
El análisis de conglomerados nunca debe ser el análisis "final". Es un paso intermedio para comprender los datos, pero no aporta ningún otro resultado utilizable, salvo una mejora. conocimiento de sus datos. Si ejecuta el análisis de conglomerados, a continuación deberá analizar los conglomerados encontrados, y lo más probable es que tenga que repetirlo varias veces.
Está bien utilizar el análisis de conglomerados como análisis preliminar. Sin embargo, no veo cómo el uso de AC resolverá cualquiera de las desventajas de utilizar (digamos) las divisiones de la mediana. A menos que el verdadero proceso de generación de datos sea que hay cuatro grupos latentes que se identifican exactamente por la agrupación, y que difieren en la media $Y$ pero no difieren en función de su $X_1$ y $X_2$ valores, le será más útil retroceder $Y$ en $X_1$ y $X_2$ (y posiblemente la interacción) directamente.