6 votos

¿Cómo calcular la varianza de los vectores para la agrupación?

Estoy interesado en varios métodos para medir la dispersión de los vectores, principalmente para su uso en el análisis de conglomerados. Se me ocurren tres métodos:

  1. Encuentre el vector medio (centroide), luego calcule la varianza de las distancias de todos los vectores a este vector medio. Es posible que el conjunto de vectores sea diferente, pero tenga la misma distancia al vector medio. En este caso, no parecería una gran medida, aunque esta situación puede ser poco probable en la práctica. Parece que la medida de calidad de cluster de Davies-Bouldin utiliza esto para medir la calidad intra-cluster.
  2. Utiliza la distancia media por pares entre vectores. He visto que se utiliza para medir la calidad intra e interclúster. Esto parece requerir algún tipo de matriz de distancia. La implementación puede ser difícil si se intenta añadir o eliminar vectores y actualizar la matriz de distancia sobre la marcha.
  3. Calcule la varianza de la población para cada componente de los vectores. Esto daría como resultado un vector que contiene la varianza de la población para cada componente. A continuación, tome la suma de los componentes en este vector.

Mis preguntas:

  • ¿Alguna opinión sobre estas medidas?
  • ¿Alguna otra buena medida?
  • Además, ¿alguien conoce un algoritmo de una sola pasada para calcular #1 y #2?

Sé cómo calcular #3 con un algoritmo de una pasada numéricamente estable. Esencialmente, cada vez que añado o quito un vector de un cluster me gustaría que la medida de calidad se actualizara automáticamente. He tenido algo de suerte con esto para ciertas medidas.

2voto

Amadiere Puntos 5606

Tenga en cuenta que no todos los algoritmos de agrupación suponen esférico racimos. Todas las medidas que usted describe no parecen demasiado sensatas para los conglomerados no convexos, por ejemplo, los conglomerados en forma de plátano; un concepto común en la agrupación basada en la densidad. En este ejemplo, la media ni siquiera está dentro del cluster. Las varianzas miden sobre todo la extensión espacial del cluster, no su conectividad y propiedades similares...

1voto

mat_geek Puntos 1367

Creo que se puede responder a la pregunta. No me gusta ninguna de estas medidas. ¿Por qué no has incluido la que creo que es la más adecuada y obvia, la distancia cuadrática media de los vectores al centroide como varianza? La número 3 sería la mía si los promedia. La número 1 es mala por la razón que ya has dado. La 2 no me gusta porque estás comparando distancias entre vectores individuales y una varianza se mide en términos de una distancia desde un centro o punto medio.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X