Hasta donde yo sé, la "media" de un conglomerado y el centroide de un conglomerado individual son la misma cosa, aunque el término "centroide" podría ser un poco más preciso que "media" cuando se trata de datos multivariantes.
Para hallar el centroide, se calcula la media (aritmética) de las posiciones de los puntos por separado para cada dimensión. Por ejemplo, si tienes puntos en:
- (-1, 10, 3),
- (0, 5, 2), y
- (1, 20, 10),
entonces el centroide se situaría en ((-1+0+1)/3, (10+5+20)/3, (3+2+10)/3), lo que simplifica (0, 11 2/3, 5). (Nota: El centroide no tiene por qué ser -y rara vez lo es- uno de los puntos de datos originales).
El centroide también se denomina a veces centro de masa o baricentro, según su interpretación física (es el centro de masa de un objeto definido por los puntos). Al igual que la media, la ubicación del centroide minimiza la distancia suma cuadrática de los demás puntos.
Una idea relacionada es la medoid que es el punto de datos "menos diferente" de todos los demás puntos de datos. A diferencia del centroide, el medoide tiene que ser uno de los puntos originales. También puede interesarle el mediana geométrica que es análogo a la mediana, pero para datos multivariantes. Ambos son diferentes del centroide.
Sin embargo, como señala Gabe en su respuesta Hay una diferencia entre la "distancia centroide" y la "distancia media" cuando se comparan conglomerados. La distancia centroide entre grupos $A$ y $B$ es simplemente la distancia entre $\text{centroid}(A)$ y $\text{centroid}(B)$ . En distancia media se calcula hallando la distancia media por pares entre los puntos de cada conglomerado. En otras palabras, para cada punto $a_i$ en grupo $A$ se calcula $\text{dist}(a_i, b_1)$ , $\text{dist}(a_i, b_2)$ , ... $\text{dist}(a_i, b_n)$ y promediarlos todos juntos.