36 votos

¿En qué se diferencia hallar el centroide de hallar la media?

Cuando se realiza un clustering jerárquico, se pueden utilizar muchas métricas para medir la distancia entre clusters. Dos de estas métricas implican el cálculo de los centroides y las medias de los puntos de datos de los clústeres.

¿Cuál es la diferencia entre la media y el centroide? ¿No son el mismo punto en el conglomerado?

45voto

Rob Allen Puntos 486

Hasta donde yo sé, la "media" de un conglomerado y el centroide de un conglomerado individual son la misma cosa, aunque el término "centroide" podría ser un poco más preciso que "media" cuando se trata de datos multivariantes.

Para hallar el centroide, se calcula la media (aritmética) de las posiciones de los puntos por separado para cada dimensión. Por ejemplo, si tienes puntos en:

  • (-1, 10, 3),
  • (0, 5, 2), y
  • (1, 20, 10),

entonces el centroide se situaría en ((-1+0+1)/3, (10+5+20)/3, (3+2+10)/3), lo que simplifica (0, 11 2/3, 5). (Nota: El centroide no tiene por qué ser -y rara vez lo es- uno de los puntos de datos originales).

El centroide también se denomina a veces centro de masa o baricentro, según su interpretación física (es el centro de masa de un objeto definido por los puntos). Al igual que la media, la ubicación del centroide minimiza la distancia suma cuadrática de los demás puntos.

Una idea relacionada es la medoid que es el punto de datos "menos diferente" de todos los demás puntos de datos. A diferencia del centroide, el medoide tiene que ser uno de los puntos originales. También puede interesarle el mediana geométrica que es análogo a la mediana, pero para datos multivariantes. Ambos son diferentes del centroide.

Sin embargo, como señala Gabe en su respuesta Hay una diferencia entre la "distancia centroide" y la "distancia media" cuando se comparan conglomerados. La distancia centroide entre grupos $A$ y $B$ es simplemente la distancia entre $\text{centroid}(A)$ y $\text{centroid}(B)$ . En distancia media se calcula hallando la distancia media por pares entre los puntos de cada conglomerado. En otras palabras, para cada punto $a_i$ en grupo $A$ se calcula $\text{dist}(a_i, b_1)$ , $\text{dist}(a_i, b_2)$ , ... $\text{dist}(a_i, b_n)$ y promediarlos todos juntos.

0 votos

¿En qué condiciones el centroide y el medoide son idénticos? Y también ¿por qué el centroide es un buen representante de un conjunto de puntos?

0 votos

@dkr, Tal vez quieras plantear esto como una nueva pregunta para obtener más respuestas (y más en profundidad). Dicho esto, la diferencia se reduce a dos cosas: 1) lo que debe minimizarse (distancia al cuadrado/norma L2 para el centroide, distancia absoluta/norma L1 para mediod) y 2) si la salida puede ser cualquier punto (centroide) o debe estar en el conjunto de datos (mediod). Se pueden imaginar casos en los que serán iguales, pero en general, no. El centroide es "bueno" por las mismas razones que la media (menor distancia suma cuadrática a los puntos) y también tiene inconvenientes similares (por ejemplo, no es robusto frente a valores atípicos).

4voto

Teme Puntos 6

La respuesta anterior puede ser incorrecta vea este video: https://www.youtube.com/watch?v=VMyXc3SiEqs Parece que la media suma todas las combinaciones de distancias entre los elementos del conglomerado 1 y el conglomerado 2, es decir, n^2 distancias sumadas y luego divide por n^2 a la media.

El método del centroide calcula primero la media de cada conglomerado dentro de sí mismo. A continuación, calcula una distancia entre esos puntos medios.

1 votos

¡Hola Gabe! Creo que te refieres a esta parte del vídeo? Hasta donde yo sé, el centroide y la media de un conglomerado son lo mismo pero, como has señalado, la distancia centroide y la distancia media entre dos grupos son medidas diferentes. Creía que el candidato preguntaba por la primera, pero acabo de añadir algo sobre la segunda. Gracias por señalarlo (+1) y bienvenido a Cross Validated.

1voto

rnd_nr_gen Puntos 111

Sea $x_1,\dots ,x_n\in \mathbb{R}^d$ y $\{C_1,C_2\}$ una partición de $\{1,\dots,n\}$ . Sea $d$ sea una métrica en $\mathbb{R}^d$ , homogénea positiva (por ejemplo, la distancia euclidiana)

Defina $\alpha := d(\frac{1}{|C_1|}\sum_{i\in C_1}x_i,\frac{1}{|C_2|}\sum_{j\in C_2}x_j)$ y $\beta := \frac{1}{|C_1|}\frac{1}{|C_2|}\sum_{i\in C_1}\sum_{j\in C_2} d(x_i,x_j)$

Reclamación: $\alpha \leq \beta$

Prueba: La función $\phi:= d(\cdot ,\frac{1}{|C_2|}\sum_{j\in C_2}x_j)$ es convexa (esto se deduce por la desigualdad triangular de la métrica + homogeneidad positiva). Por lo tanto, por la desigualdad de Jensen

$$ \alpha = \phi(\frac{1}{|C_1|}\sum_{i\in C_1}x_i) \leq \frac{1}{|C_1|}\sum_{i\in C_1}\phi(x_i)$$

Para cada $x_i$ la función $\psi_i := d(x_i , \cdot )$ también es convexa. Sustituyendo lo anterior, obtenemos $$ \alpha \leq \frac{1}{|C_1|}\sum_{i\in C_1}\psi_i(\frac{1}{|C_2|}\sum_{j\in C_2}x_j)$$

Utilizando una vez más la desigualdad de Jensen obtenemos

$$ \alpha \leq \frac{1}{|C_1|}\sum_{i\in C_1}\frac{1}{|C_2|}\sum_{j\in C_2}\psi_i(x_j) = \beta$$

0voto

iddqd Puntos 111

El centroide es la media de los puntos de datos de un conglomerado; el punto del centroide no tiene por qué estar presente en el conjunto de datos, mientras que el medoide es el punto de datos que está más cerca del centroide; el medoide tiene que estar presente en los datos originales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X