10 votos

Asignar pesos a las variables en el análisis de conglomerados

Quiero asignar diferentes pesos a las variables en mi análisis de conglomerados, pero mi programa (Stata) no parece tener una opción para ello, así que tengo que hacerlo manualmente.

Imagina 4 variables A, B, C, D. Las ponderaciones de esas variables deben ser

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

Me pregunto si uno de los dos enfoques siguientes podría servir de verdad:

  1. Primero estandarizo todas las variables (por ejemplo, por su rango). Luego multiplico cada variable estandarizada por su peso. A continuación, hago el análisis de conglomerados.
  2. Multiplico todas las variables con su peso y las estandarizo después. A continuación, hago el análisis de conglomerados.

¿O ambas ideas son un completo disparate?

[EDITAR] Los algoritmos de clustering (pruebo 3 diferentes) que deseo utilizar son k-means, weighted-average linkage y average-linkage. Tengo previsto utilizar la vinculación de media ponderada para determinar un buen número de clusters que luego introduzco en k-means.

6voto

Franck Dernoncourt Puntos 2128

Una forma de asignar un peso a una variable es cambiando su escala. El truco funciona para los algoritmos de agrupación que mencionas, a saber, k-means, enlace de media ponderada y enlace de media.

Kaufman, Leonard, y Peter J. Rousseeuw. " Encontrar grupos en los datos: Una introducción al análisis de conglomerados ." (2005) - página 11:

La elección de las unidades de medida da lugar a los pesos relativos de la variables. Expresar una variable en unidades más pequeñas dará lugar a un mayor rango para esa variable, lo que tendrá un gran efecto en la estructura resultante. Por otro lado, al estandarizar se de estandarizar se intenta dar a todas las variables el mismo peso, con la esperanza de de lograr la objetividad. Como tal, puede ser utilizado por un profesional que que no posea conocimientos previos. Sin embargo, es muy posible que algunas variables sean intrínsecamente más importantes que otras en una aplicación, y entonces la asignación de pesos debe basarse en conocimiento de la materia (véase, por ejemplo, Abrahamowicz, 1985).

Por otro lado, se ha intentado idear técnicas de agrupación de conglomerados que sean independientes de la escala de las variables (Friedman y Rubin, 1967). La propuesta de Hardy y Rasson (1982) es buscar una partición que minimice el volumen total de los cascos convexos de los conglomerados. En principio, este método es invariable con respecto a las transformaciones lineales de los datos, pero desgraciadamente no existe ningún algoritmo para su aplicación (salvo una aproximación restringida a dos dimensiones). Por lo tanto, el dilema de la estandarización parece inevitable en la actualidad y los programas descritos en este libro dejan la elección en manos del usuario

Abrahamowicz, M. (1985), The use of non-numerical a pnon information for Disimilarities, ponencia presentada en la Cuarta Reunión Europea de la Sociedad Psicométrica y las Sociedades de Clasificación, 2-5 de julio, Cambridge. la Sociedad Psicométrica y las Sociedades de Clasificación, 2-5 de julio, Cambridge (REINO UNIDO).

Friedman, H. P., y Rubin, J. (1967), On some invariant criteria for grouping data. J . Amer. Statist. ASSOC6.,2 , 1159-1178.

Hardy, A., y Rasson, J. P. (1982), Une nouvelle approche des problèmes de clasificación automática, Statist. Anal. Donnies, 7, 41-56.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X