3 votos

Fórmulas matemáticas sobre Clustering

Actualmente estoy estudiando Clustering en Aprendizaje Automático. He encontrado un documento sobre cómo adivinar el número correcto de clusters. Estoy leyendo la primera parte de él, teniendo dificultades para entender las primeras cuatro fórmulas en los círculos rojos de la imagen a continuación. Creo que he entendido un poco sobre ellas, pero no estoy 100% seguro.

¿Alguien puede darme su expertise en lo que dicen estas cuatro fórmulas? Gracias y lamento si he colocado mis preguntas en el lugar incorrecto.

insertar descripción de la imagen aquí

1voto

Mouffette Puntos 205

El cluster $r$ es un conjunto de puntos $\{x_1,x_2,\ldots, x_{n_r}\}$. Para calcular $D_r$, se calcula el cuadrado de la distancia euclidiana entre todas las posibles parejas de puntos del cluster $r$, y se suman todos estos números. Esto puede resultarte más familiar: $$D_r = \sum_{i=1}^{n_r} \sum_{i'=1}^{n_r}\|x_i-x_{i'}\|^2.$$


Entonces, afirmamos que se cumple la siguiente identidad ($\overline{x}:= \frac{1}{n_r}\sum x_i $ denota la media del cluster): $$\boxed{\frac{1}{2n_r}D_r = \frac{1}{2n_r} \sum_{i=1}^{n_r} \sum_{i'=1}^{n_r}\|x_i-x_{i'}\|^2 = \sum_{i=1}^{n_r}\|x_i-\overline{x}\|^2}.$$

[Lo siguiente es una demostración muy torpe... si alguien tiene una manera más fácil, por favor házmelo saber.]

Para comprobar esto, asumamos por el momento que los $x_i$ son unidimensionales (números reales). Entonces \begin{align*} (\overline{x}-x_i)^2&=\left(\frac{x_1+x_2+\cdots+x_{n_r}-n_r x_i}{n_r}\right)^2\\ (\overline{x}-x_i)^2&= \frac{1}{n_r^2}((x_1-x_i)+(x_2-x_i)+\cdots+(x_{n_r}-x_i))^2\\ (\overline{x}-x_i)^2&= \frac{1}{n_r^2}\left[\sum_{j\ne i}(x_j-x_i)^2+\sum_{j \ne i}\sum_{k \ne i,j}(x_j-x_i)(x_k-x_i)\right]\\ \sum_{i=1}^{n_r}(\overline{x}-x_i)^2&= \frac{1}{n_r^2}\left[\sum_{i=1}^{n_r}\sum_{j\ne i}(x_j-x_i)^2+\sum_{i=1}^{n_r}\sum_{j\ne i}\sum_{k \ne i,j}(x_j-x_i)(x_k-x_i)\right]\\ &= \frac{1}{n_r^2}\left[\sum_{i=1}^{n_r}\sum_{j\ne i}(x_j-x_i)^2+\sum_{i=1}^{n_r}\sum_{j i}\sum_{k \ne i,j}\left[(x_j-x_i)(x_k-x_i)+(x_i-x_j)(x_k-x_j)\right]\right]\\ &=\frac{1}{n_r^2}\left[\sum_{i=1}^{n_r}\sum_{j\ne i}(x_j-x_i)^2+\sum_{i=1}^{n_r}\sum_{j> i}\sum_{k \ne i,j}(x_i-x_j)^2\right]\\ &=\frac{1}{n_r^2}\left[\sum_{i=1}^{n_r}\sum_{j\ne i}(x_j-x_i)^2+(n_r-2)\sum_{i=1}^{n_r}\sum_{j > i}(x_i-x_j)^2\right]\\ &=\frac{1}{n_r^2}\left[2\sum_{i=1}^{n_r}\sum_{j> i}(x_j-x_i)^2+(n_r-2)\sum_{i=1}^{n_r}\sum_{j > i}(x_i-x_j)^2\right]\\ &= \frac{1}{n_r}\sum_{i=1}^{n_r}\sum_{j> i}(x_j-x_i)^2\\ &= \frac{1}{2n_r}\sum_{i=1}^{n_r}\sum_{j =1}^{n_r}(x_j-x_i)^2\\ \end{align*}

Entonces, el resultado se cumple si los puntos son unidimensionales. Para demostrar el resultado en dimensiones más altas, nota que dado que estamos tomando el cuadrado de la distancia euclidiana, podemos manejar cada dimensión por separado y sumarlas para llegar a la identidad anterior.


$W_k$ es simplemente la suma de $\frac{1}{2n_r} D_r$ sobre todos los clusters. La identidad enmarcada arriba muestra que $$W_k=\sum_{r=1}^k \frac{1}{2n_r} D_r=\sum_{r=1}^k \sum_{x_i \in C_r} \|x_i-\overline{x}_r\|^2,$$ (aquí, $\overline{x}_r$ es la media del cluster $r$) lo que significa "suma agrupada de cuadrados dentro del cluster alrededor de las medias del cluster". Si el número de puntos está fijo, entonces un $W_k$ más bajo sería un mejor agrupamiento, ya que los puntos estarían más cerca de sus respectivas medias de cluster.


Por lo tanto, puedes calcular $W_k$. Pero, ¿cómo puedes determinar si tu $W_k$ es bajo o no? Necesitamos un "punto de referencia"; este es el papel de la "distribución de referencia nula". Si, por ejemplo, nuestra hipótesis nula es que los puntos están dispersos uniformemente, entonces puedes calcular la expectativa del valor de $W_k$, lo que representaría un valor "malo" de $W_k, ya que no debería haber un buen agrupamiento. Entonces, si el $W_k$ que calculas para tus datos es muy bajo en relación con esta expectativa, entonces tienes una razón sólida para creer que tu agrupamiento es bueno. Hacer esto para múltiples $k$ te ayuda a elegir el mejor $k$. (El uso de $\log$ es principalmente una conveniencia computacional, puedes ignorarlo si solo deseas entender el panorama general.)


No estoy seguro de cómo funciona el cálculo de la expectativa de $\log W_k$. Supongo que usan la desigualdad de Jensen para obtener $E[\log W_k] \le \log E[W_k]$ y luego usan la identidad $W_k = \sum_{r=1}^k \sum_{x_i \in C_r}\|x_i-\overline{x}_r\|^2$ de alguna manera, pero puedo estar equivocado. ¡Quizás alguien más pueda responder?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X