¿Cómo calcular la varianza de los vectores para la agrupación?

Question

¿Cómo calcular la varianza de los vectores para la agrupación?

Preguntado el 15 de Agosto, 2012: Cuando se hizo la pregunta
1645 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Estoy interesado en varios métodos para medir la dispersión de los vectores, principalmente para su uso en el análisis de conglomerados. Se me ocurren tres métodos:

Encuentre el vector medio (centroide), luego calcule la varianza de las distancias de todos los vectores a este vector medio. Es posible que el conjunto de vectores sea diferente, pero tenga la misma distancia al vector medio. En este caso, no parecería una gran medida, aunque esta situación puede ser poco probable en la práctica. Parece que la medida de calidad de cluster de Davies-Bouldin utiliza esto para medir la calidad intra-cluster.
Utiliza la distancia media por pares entre vectores. He visto que se utiliza para medir la calidad intra e interclúster. Esto parece requerir algún tipo de matriz de distancia. La implementación puede ser difícil si se intenta añadir o eliminar vectores y actualizar la matriz de distancia sobre la marcha.
Calcule la varianza de la población para cada componente de los vectores. Esto daría como resultado un vector que contiene la varianza de la población para cada componente. A continuación, tome la suma de los componentes en este vector.

Mis preguntas:

¿Alguna opinión sobre estas medidas?
¿Alguna otra buena medida?
Además, ¿alguien conoce un algoritmo de una sola pasada para calcular #1 y #2?

Sé cómo calcular #3 con un algoritmo de una pasada numéricamente estable. Esencialmente, cada vez que añado o quito un vector de un cluster me gustaría que la medida de calidad se actualizara automáticamente. He tenido algo de suerte con esto para ciertas medidas.

Preguntado el 15 de Agosto, 2012 por Magic

Answer 1

2 Respuestas

Answer 2

2voto

Amadiere Puntos 5606

Tenga en cuenta que no todos los algoritmos de agrupación suponen esférico racimos. Todas las medidas que usted describe no parecen demasiado sensatas para los conglomerados no convexos, por ejemplo, los conglomerados en forma de plátano; un concepto común en la agrupación basada en la densidad. En este ejemplo, la media ni siquiera está dentro del cluster. Las varianzas miden sobre todo la extensión espacial del cluster, no su conectividad y propiedades similares...

Respondido el 15 de Agosto, 2012 por Amadiere (5606 Puntos )

Answer 3

1voto

mat_geek Puntos 1367

Creo que se puede responder a la pregunta. No me gusta ninguna de estas medidas. ¿Por qué no has incluido la que creo que es la más adecuada y obvia, la distancia cuadrática media de los vectores al centroide como varianza? La número 3 sería la mía si los promedia. La número 1 es mala por la razón que ya has dado. La 2 no me gusta porque estás comparando distancias entre vectores individuales y una varianza se mide en términos de una distancia desde un centro o punto medio.

Respondido el 15 de Agosto, 2012 por mat_geek (1367 Puntos )

¿Cómo calcular la varianza de los vectores para la agrupación?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo calcular la varianza de los vectores para la agrupación?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: