4 votos

El análisis de clústeres en R produce inversiones en el dendrograma

Estoy intentando realizar un análisis de cluster jerárquico aglomerativo en R.

Sin embargo, cuando utilizo determinados métodos de agrupación, obtengo inversiones (ramificaciones hacia arriba) en el árbol resultante, lo que viola la propiedad ultramétrica.

enter image description here

Los dos métodos son: UPGMC y WPGMC (methods="median" y "centroid" en hclust ). Legendre & Legendre en su libro Numerical Ecology sugieren algunas razones por las que esto puede ocurrir (Sección 8.6). Sin embargo, no proporcionan ninguna solución para rectificar el problema y convertir los árboles en ultramétricos.

Tengo curiosidad: ¿es esto una consecuencia inevitable de los datos y del método de agrupación, o hay alguna forma de producir un árbol que satisfaga la propiedad ultramétrica utilizando estos dos métodos?

Aquí hay un conjunto de datos de ejemplo y un código R para jugar:

#Generate data frame with mixed continuous and categorical trait data for 10 species
set.seed(91)
(df=data.frame(trait1=runif(10,0,10),trait2=runif(10,0,10),
               trait3=sample(letters[1:3],10,replace=T),row.names=paste("sp",1:10,sep="")))

#Generate Gower dissimilarity matrix from trait data
library(cluster)
(dist.gower=daisy(df,metric="gower"))

#Create a vector of clustering methods
tree.methods=c("ward","single","complete","average","mcquitty","median","centroid")  
#Build the trees using each method
trees=lapply(tree.methods,function(i) hclust(dist.gower,method=i))  
#Plot the trees
par(mfrow=c(4,2))
for(i in 1:length(trees)) {plot(trees[[i]])}
#The last two trees have reversals...cannot be converted to ultrametric!

7voto

Uri Puntos 111

Esto es unavoidable consequence of the data and the clustering method . Las aglomeraciones del centro y de la mediana pueden producir tales "inversiones" con algunos datos. Porque, en principio, la distancia entre los centros de los conglomerados puede disminuir en un paso posterior de la aglomeración.

La solución más práctica es ignorar el hecho de que se ha producido la inversión y alinear las barras transversales "hundidas" más antiguas (posteriores) con la barra transversal más alta que es anterior a ella. Como muestro a continuación.

Una noción más. En su lugar, me abstendría de utilizar métodos geométricos (centroide, mediana, Ward) -adecuados para la distancia euclidiana- con el coeficiente de Gower no métrico.

enter image description here

0 votos

@ttnphns--¡Gracias por tu respuesta! Me gusta tu diagrama corregido. Simplemente he excluido estos dos métodos de mi análisis... pero por curiosidad, ¿tienes una referencia para tu último punto re: métodos geométricos y las distancias no métricas?

0 votos

Los 3 métodos que cito se denominan "geométricos" en algunos textos porque se dedican a calcular los centroides de los clusters en el espacio euclidiano. Por lo tanto, requieren la distancia euclidiana como entrada. La (des)similitud de Gower no es, ni mucho menos, euclidiana, sino que suele ser no métrico . Ver también este .

0 votos

¿Y si convierto las distancias de Gower a euclidianas utilizando el análisis de coordenadas principales?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X