Estoy aprendiendo acerca de la evaluación de la agrupación de resultado y estoy confundido acerca de la dispersión de las matrices. Con la esperanza de obtener un poco de ayuda aquí.
Dentro del clúster de dispersión de la matriz $S_W$se define como: $$ S_W=\sum _{ k=1 }^{ K }{ \sum _{ x\in { C }_{ k } }^{ }{ \left( x-{ \mu }_{ k } \right) { \left( x-{ \mu }_{ k } \right) }^{ T } } } $$ El entre-clúster de la matriz $S_B$ se define como: $$ S_B=\sum _{ k=1 }^{ K }{ N_k }{ \left( { \mu }_{ k }-{ \mu } \right) { \left( { \mu }_{ k }-{ \mu } \right) }^{ T } } $$ donde $K$ es el número de clusters, $x$ es un miembro de clúster $C_k$, $\mu_k$ es centroides de clúster $C_k$, $N_k$ es el número de miembros en el grupo $C_k$, $\mu$ es la media de todo el conjunto de datos.
Mi conjunto de datos tiene la forma de $m$$d$, es decir, $m$ puntos de datos de $d$ dimensiones (características). Después de la agrupación, cada clúster $C_k$ tiene la forma de $N_k$$d$. Así, un punto de $x$ tiene la dimensión de $1\times d$, asimismo, $\mu_k$ tiene la dimensión de $1\times d$. Y, $S_W$ $S_B$ son escalares. ¿Por que no son las matrices? Exactamente qué debo esperar en los elementos de las matrices? Con ese resultado, el uso de $trace \left( S_W \right)$ $trace \left( S_B \right)$ se vuelven irrelevantes.
Estoy seguro que no ha entendido el tema correctamente. Agradezco cualquier ayuda aquí.
Actualización 1:
La dispersión de la matriz para cada clúster está dada como: $$ S_k=\sum _{ x\in { C }_{ k } }^{ }{ \left( x-{ \mu }_{ k } \right) { \left( x-{ \mu }_{ k } \right) }^{ T } } $$ lo que me da una cantidad escalar para $x$ $\mu_k$ del tamaño de la $1 \times d$. Lo que debe $S_{ k(i,j) }$? Dado un conjunto de datos de $n$ observaciones $d$ variables/funciones (es decir,$n \times d$), lo que debería ser el tamaño de $S_k$?
Para aclarar más mi problema, supongamos que uno de los grupos tiene 2 miembros (filas) con 3 variables/funciones (columnas): $$ C_k = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix} $$ Entonces $$ { x }_{ 1 }=\left[ \begin{matrix} 1 & 2 & 3 \end{de la matriz} \right] \\ { x }_{ 2 }=\left[ \begin{matrix} 4 & 5 & 6 \end{de la matriz} \right] \\ { \mu }_{ k }=media\left( { x }_{ 1 },{ x }_{ 2 } \right) =\left[ \begin{matrix} 2.5 & 3.5 & 4.5 \end{de la matriz} \right] \\ \left( { x }_{ 1 }-{ \mu }_{ k } \right) { \left( { x }_{ 1 }-{ \mu }_{ k } \right) }^{ T }=\left[ \begin{matrix} -1.5 & -1.5 & -1.5 \end{de la matriz} \right] \left[ \begin{matrix} -1.5 \\ -1.5 \\ -1.5 \end{de la matriz} \right] =6.75\\ \left( { x }_{ 2 }-{ \mu }_{ k } \right) { \left( { x }_{ 2 }-{ \mu }_{ k } \right) }^{ T }=\left[ \begin{matrix} 1.5 & 1.5 & 1.5 \end{de la matriz} \right] \left[ \begin{matrix} 1.5 \\ 1.5 \\ 1.5 \end{de la matriz} \right] =6.75\\ { S }_{ k }=\sum _{ x\in { C }_{ k } }^{ }{ \left( x-{ \mu }_{ k } \right) { \left( x-{ \mu }_{ k } \right) }^{ T } } =6.75+6.75=13.5 $$ Por eso, $S_k$ es escalar y, en consecuencia, $S_W$ será escalar. ¿De dónde me vaya mal en el cálculo anterior de dispersión de la matriz para un clúster?
Actualización 2:
Así, los puntos de datos deben ser vectores columna. $$ { x }_{ 1 }=\left[ \begin{matrix} 1 \\ 2 \\ 3 \end{de la matriz} \right] \\ { x }_{ 2 }=\left[ \begin{matrix} 4 \\ 5 \\ 6 \end{de la matriz} \right] \\ { \mu }_{ k }=media\left( { x }_{ 1 },{ x }_{ 2 } \right) =\left[ \begin{matrix} 2.5 \\ 3.5 \\ 4.5 \end{de la matriz} \right] \\ \left( { x }_{ 1 }-{ \mu }_{ k } \right) { \left( { x }_{ 1 }-{ \mu }_{ k } \right) }^{ T }=\left[ \begin{matrix} -1.5 \\ -1.5 \\ -1.5 \end{de la matriz} \right] \left[ \begin{matrix} -1.5 & -1.5 & -1.5 \end{de la matriz} \right] =\left[ \begin{matrix} 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \end{de la matriz} \right]\\ \left( { x }_{ 2 }-{ \mu }_{ k } \right) { \left( { x }_{ 2 }-{ \mu }_{ k } \right) }^{ T }=\left[ \begin{matrix} 1.5 \\ 1.5 \\ 1.5 \end{de la matriz} \right] \left[ \begin{matrix} 1.5 & 1.5 & 1.5 \end{de la matriz} \right] =\left[ \begin{matrix} 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \end{de la matriz} \right]\\ { S }_{ k }=\sum _{ x\in { C }_{ k } }^{ }{ \left( x-{ \mu }_{ k } \right) { \left( x-{ \mu }_{ k } \right) }^{ T } } =\left[ \begin{matrix} 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \end{de la matriz} \right]+\left[ \begin{matrix} 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \end{de la matriz} \right]=\left[ \begin{matrix} 4.5 & 4.5 & 4.5 \\ 4.5 & 4.5 & 4.5 \\ 4.5 & 4.5 & 4.5 \end{de la matriz} \right] $$ Y por último, $S_W=\sum _{ k=1 }^{ K } S_k$. Sí, esta es la matriz! Puedo hacerlo bien esta vez?
El tamaño de $S_W$ es $d \times d$ ($d$ siendo dimensión/no. de las características de los puntos de datos). $trace(S_W)$ es entonces la suma de cuadrados de error.
Actualización 3:
Utilizando el enfoque dado por @ttnphns, la matriz de datos para el grupo de k puede ser dispuestos en filas (mientras que las ecuaciones anteriores tienen datos en columnas): $$ X_k = \begin{bmatrix} x_1^T \\ x_2^T \end{bmatrix} = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix} $$
Cada una de las columnas tiene 2 elementos, por lo tanto, el centro de la matriz de columnas, el centro de la matriz es $$ C_2 = I(2) - \frac{1}{n}O(2) = \begin{bmatrix} 0.5 & -0.5 \\ -0.5 & 0.5 \end{bmatrix} $$ donde $I(2)$ es identificar la matriz de tamaño 2, $O(2)$ es de 2-por-2 de la matriz de todos los 1.
Centro de las columnas de la matriz $X_k$, $$ X_k^c = C_2X_k = \begin{bmatrix} 0.5 & -0.5 \\ -0.5 & 0.5 \end{bmatrix}\begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix}\\=\begin{bmatrix} -1.5 & -1.5 & -1.5 \\ 1.5 & 1.5 & 1.5 \end{bmatrix} $$ Do $X_k^{c~T}X_k^c$ da $S_k$ $$ S_k=X_k^{c~T}X_k^c = \begin{bmatrix} -1.5 & 1.5 \\ -1.5 & 1.5 \\ -1.5 & 1.5 \end{bmatrix}\begin{bmatrix} -1.5 & -1.5 & -1.5 \\ 1.5 & 1.5 & 1.5 \end{bmatrix}\\=\begin{bmatrix} 4.5 & 4.5 & 4.5 \\ 4.5 & 4.5 & 4.5 \\ 4.5 & 4.5 & 4.5 \end{bmatrix} $$ Este es el mismo como en la Actualización 2.