6 votos

Casos ponderados en un análisis de conglomerados para casos en SPSS

Estoy realizando un análisis de conglomerados (de casos) para una base de datos que tiene el peso atribuido a los casos individuales para asegurar que refleje la población general en términos de distribución sociodemográfica.

Dado que la agrupación jerárquica ignora el peso atribuido, ¿es estadísticamente correcto comenzar un análisis de agrupación jerárquica no ponderada para determinar la mejor solución, y luego utilizar k-means con ese número de agrupaciones? ¿O sería más razonable comenzar varias soluciones de k-means hasta que se asuma un buen ajuste?

¿O podemos encontrar una forma de realizar un análisis de conglomerados jerárquico ponderado (los ponderados son los objetos a conglomerarse y los ponderados son las frecuencias)?

0 votos

Muchas gracias por la detallada respuesta. Dado que la base de datos pretende representar a 6,4 millones de personas y tiene su respectiva ponderación, ¿podría compartir la sintaxis y el enfoque para realizar un análisis de conglomerados mediante submuestras seleccionadas aleatoriamente? Además, ¿es conveniente añadir ruido aleatorio siempre que se realiza un análisis de conglomerados, o sólo cuando se (re)propaga manualmente la base de datos?

4voto

Uri Puntos 111

El uso de K-means después de la agrupación jerárquica o de la agrupación jerárquica después de K-means puede ser a veces un buen truco por sí mismo, no por la ponderación.

Ponderación de la frecuencia de los objetos al agruparlos

Ahora sobre la ponderación. Para hacer jerárquico Análisis de conglomerados de casos con pesos de frecuencia asignados a los casos (objetos a conglomerar):

Enfoque 1, general. Propagar objetos. Multiplique los pesos por una constante para que el peso individual más pequeño sea aproximadamente 1, y luego redondee los pesos; y propague los casos según esas frecuencias. Por ejemplo, si tiene 4 grupos de casos con sus correspondientes pesos de casos 0.55 0.23 1.98 1.14 multiplicando por 4,35 se obtiene 2.39 1.00 8.61 4.96 y luego redondear a frecuencias 2 1 9 5 . Propague cada caso del grupo correspondiente este número de veces. En el SPSS una sintaxis para propagar los casos es la siguiente.

loop #i= 1 to FREQ. /*FREQ is that recalculated weighting variable
xsave outfile= 'FILE.SAV' /keep= VARS. /*FILE.SAV is the dataset you save to hard disk: path and filename
           /*Optional /keep= VARS is the list of variables you want to save with the file
           /*In your case that will be of course all the features you cluster by
end loop.
exec.

Si necesita una precisión 10 veces mayor en cumplimiento de los pesos fraccionarios originales, multiplique por 10 antes de redondear, 23.9 10.0 86.1 49.6 para que las frecuencias de propagación sean 24 10 86 50 . Sin embargo, la duplicación de casos este gran número de veces puede hacer que el conjunto de datos sea demasiado grande para un único análisis de cluster jerárquico. Así que no hay que ser demasiado duro con la precisión.

Por otro lado, un gran conjunto de datos propagado puede ser analizado por submuestras seleccionadas aleatoriamente, varias veces. A continuación, podría combinar los resultados (son posibles varios enfoques). [En realidad, para realizar dicho remuestreo con reemplazo en SPSS no es necesario propagar los datos primero. Sin embargo, me detendré y no entraré en detalles de la sintaxis para hacerlo].

Después de la propagación de los casos y antes de la agrupación, se puede añadir un pequeño ruido aleatorio para cuantitativo características - para desatar casos idénticos. Esto hará que los resultados de la agrupación dependan menos del orden de los casos en el conjunto de datos.

do repeat x= var1 var2 var3. /*list of quantitative variables
compute x= x+rv.uniform(0,0.00001). /*a noise value between 0 and, say, 0.00001
end repeat.
exec.

Si está trabajando con una matriz de distancia ya construida (en lugar del conjunto de datos), entonces propague sus filas/columnas las veces que necesite. En SPSS, puede utilizar la práctica función de matriz !propag() para ello - vea mi página web.

Enfoque 2. Utilizar la aglomeración reanudada. Algunas implementaciones de clustering jerárquico (un ejemplo es mi propia macro de SPSS para clustering jerárquico que se encuentra en mi página web) permiten interrumpir la aglomeración y guardar la matriz de distancia que queda actualmente; esa matriz tiene una columna adicional con las frecuencias dentro del cluster hasta el momento. La matriz puede ser utilizada como entrada para "reanudar" el clustering. Ahora, el hecho es que algunos métodos de aglomeración, a saber, solo (vecino más cercano), completa (vecino más lejano), media entre grupos (UPGMA), centroide y mediana no notan ni hacen diferencia sobre cuál es la densidad dentro del cluster cuando fusionan dos clusters. Por lo tanto, para estos métodos reanudar la aglomeración es equivalente a hacer la aglomeración con los pesos de frecuencia iniciales. Por lo tanto, si su programa tiene la opción de interrumpir/reanudar la aglomeración puede utilizarla, bajo los métodos anteriores, para "simular" la entrada ponderada con éxito, y no necesita propagar filas/columnas de la matriz.

Además , tres métodos - solo , completa y mediana (WPGMC) son conocidos por ignorar incluso las frecuencias dentro del cluster cuando fusionan dos clusters. Por lo tanto, la ponderación de la frecuencia (ya sea por el enfoque 1 o el enfoque 2) para estos métodos parece totalmente innecesaria. Son insensibles a ella y darán la misma clasificación de objetos sin ponderación que con ponderación. La única diferencia estará en el aspecto del dendrograma, ya que con la ponderación se utilizan más objetos para combinar y esto debería aparecer en el dendro.

En cuanto a la ponderación de los casos en K-means procedimiento de agrupación, el SPSS lo permite: el procedimiento obedece al régimen de ponderación. Esto es comprensible: El cálculo de K-means puede incorporar fácil y naturalmente pesos enteros o fraccionarios mientras se calculan las medias de los clusters. La propagación de casos debería dar resultados muy similares a la agrupación en régimen de ponderación activada.

Dos pasos El análisis de conglomerados de SPSS no admite casos de ponderación, como la agrupación jerárquica. Así que la solución aquí es la propagación de casos descrita anteriormente en el enfoque 1.

1 votos

Me interesa el tema, pero quiero más información. Tiene alguna referencia a su respuesta, como libros?

0 votos

¿Por qué quiere referencias? La respuesta puede ser independiente . Si tiene que hacer una pregunta específica, por favor, ¿por qué no la publica en este sitio?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X