2 votos

¿Existen medidas preexistentes y ampliamente utilizadas para el nivel de "jerarquía" en un conjunto de datos?

Al aprender sobre la agrupación jerárquica, me preguntaba si existe una medida comúnmente utilizada para la cantidad de jerarquía en un conjunto de datos.

Lo que quiero decir es: Si los puntos de datos son todos variables aleatorias normales no correlacionadas con la misma media y std, claramente no hay jerarquía y por lo tanto una medida de jerarquía debe ser 0, o cerca de 0.

Si, por el contrario, existe una fuerte relación jerárquica que desciende muchos niveles, entonces la medida debe ser 1 (normalizada) o algo más alejado de 0.

EDIT: Debo añadir que se me ocurren varias maneras de enfocar esta cuestión, pero quería saber si ya existe un enfoque ampliamente utilizado/aceptado/estándar para esto, y de alguna manera buscar en Google "medida de jerarquía" o algo parecido no arroja resultados útiles.

0voto

JeffFoster Puntos 354

Bueno, no me han contestado con ninguna respuesta definitiva, así que pensé en responder con lo que terminé usando:

Tomo mi conjunto de datos para el que quiero comprobar el nivel de jerarquía, y calculo una matriz de vinculación para él (utilizando scipy.cluster.hierarchy.linkage ) del paquete scipy clustering.

Esto me da un árbol de clustering expresado en esa matriz de enlace, y para ese árbol calculo el coeficiente de correlación cofenética .

Este coeficiente mide la correlación entre la distancia de dos elementos y la altura del nodo del árbol de agrupación (dendrograma) en el que los dos elementos se unen por primera vez.

Si tiene un coeficiente alto (cercano a 1), significa que los elementos que están cerca se reúnen pronto durante la agrupación aglomerativa, y los elementos que están lejos se reúnen más tarde.

Ahora bien, hay un montón de botones que se pueden girar, como la métrica que se va a utilizar, y qué tipo de vinculación (simple, completa, de barrio, ...), pero he encontrado que funciona bien para una estimación aproximada de "sí, este conjunto de datos tiene mucha jerarquía y, no, este conjunto de datos no".

Los primeros experimentos con el coeficiente de silueta, sin embargo, resultaron totalmente decepcionantes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X