34 votos

Cómo interpretar el dendrograma de un análisis jerárquico de conglomerados

Considere el siguiente ejemplo de R:

plot( hclust(dist(USArrests), "ave") )
  1. ¿Qué significa exactamente el eje "Altura"?

  2. Mirando a Carolina del Norte y California (más bien a la izquierda). ¿Está California "más cerca" de Carolina del Norte que de Arizona? ¿Puedo hacer esta interpretación?

  3. Hawái (a la derecha) se une al grupo bastante tarde. Puedo ver esto ya que es "más alto" que otros estados. En general, ¿cómo puedo interpretar correctamente el hecho de que las etiquetas sean "más altas" o "más bajas" en el dendrograma?

enter image description here

1 votos

Respuestas en ?hclust .

3 votos

Las posiciones de las etiquetas no tienen ningún significado. Si no entiendes el eje y entonces es extraño que tengas la impresión de entender bien la agrupación jerárquica.

1 votos

También hay que tener en cuenta que la agrupación jerárquica generalmente no no te dan clasificación jerárquica (árbol) . El método de la media (que usted utilizó) no lo hace, en particular. Véase el último punto aquí .

29voto

Sebastian Dietz Puntos 4309

Yo tenía las mismas preguntas cuando intenté aprender clustering jerárquico y encontré el siguiente pdf muy muy útil.

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

Incluso si Richard ya tiene claro el procedimiento, otros que hojeen la pregunta probablemente puedan utilizar el pdf, es muy sencillo y claro especialmente para aquellos que no tienen suficiente formación matemática.

5 votos

Sólo quiero reiterar que el pdf enlazado es muy bueno.

0 votos

Referencia: Klimberg, Ronald K. y B. D. McCullough. 2013. "Capítulo 7: Análisis jerárquico de conglomerados", en Fundamentos del análisis predictivo con JMP. Cary, NC: SAS Institute.

21voto

Zizzencs Puntos 1358

1) El eje Y es una medida de proximidad de los puntos de datos individuales o de los clusters.

2) California y Arizona están igualmente alejados de Florida porque CA y AZ están en un grupo antes de que cualquiera de ellos se una a FL.

3) Hawái se incorpora bastante tarde, en torno a los 50 años. Esto significa que el grupo al que se une está más cerca antes de que HI se una. Pero no mucho más cerca. Obsérvese que el cúmulo al que se une (el de la derecha) sólo se forma a unos 45. El hecho de que HI se una a un grupo más tarde que cualquier otro estado significa simplemente que (utilizando cualquier métrica que se haya seleccionado) HI no está tan cerca de ningún estado en particular.

0 votos

Así, la "altura" me da una idea del valor del criterio de enlace (como aquí ) - en mi caso la distancia media de los clusters entre sí. ¿Es esto correcto? Gracias.

0 votos

¿No es el eje Y una medida de dis ¿semejanza entre grupos y puntos? Es decir, negativa la cercanía, porque es mayor cuando las cosas son más disímiles, no al revés @PeterFlom

1voto

Babaasa Puntos 11

El eje horizontal representa las agrupaciones. La escala vertical del dendrograma representa la distancia o disimilitud. Cada unión (fusión) de dos clusters se representa en el diagrama mediante la división de una línea vertical en dos líneas verticales. La posición vertical de la división, mostrada por una barra corta, da la distancia (disimilitud) entre los dos clusters.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X