7 votos

Confusión sobre las matrices de dispersión

Estoy aprendiendo acerca de la evaluación de la agrupación de resultado y estoy confundido acerca de la dispersión de las matrices. Con la esperanza de obtener un poco de ayuda aquí.

Dentro del clúster de dispersión de la matriz $S_W$se define como: $$ S_W=\sum _{ k=1 }^{ K }{ \sum _{ x\in { C }_{ k } }^{ }{ \left( x-{ \mu }_{ k } \right) { \left( x-{ \mu }_{ k } \right) }^{ T } } } $$ El entre-clúster de la matriz $S_B$ se define como: $$ S_B=\sum _{ k=1 }^{ K }{ N_k }{ \left( { \mu }_{ k }-{ \mu } \right) { \left( { \mu }_{ k }-{ \mu } \right) }^{ T } } $$ donde $K$ es el número de clusters, $x$ es un miembro de clúster $C_k$, $\mu_k$ es centroides de clúster $C_k$, $N_k$ es el número de miembros en el grupo $C_k$, $\mu$ es la media de todo el conjunto de datos.

Mi conjunto de datos tiene la forma de $m$$d$, es decir, $m$ puntos de datos de $d$ dimensiones (características). Después de la agrupación, cada clúster $C_k$ tiene la forma de $N_k$$d$. Así, un punto de $x$ tiene la dimensión de $1\times d$, asimismo, $\mu_k$ tiene la dimensión de $1\times d$. Y, $S_W$ $S_B$ son escalares. ¿Por que no son las matrices? Exactamente qué debo esperar en los elementos de las matrices? Con ese resultado, el uso de $trace \left( S_W \right)$ $trace \left( S_B \right)$ se vuelven irrelevantes.

Estoy seguro que no ha entendido el tema correctamente. Agradezco cualquier ayuda aquí.

Actualización 1:

La dispersión de la matriz para cada clúster está dada como: $$ S_k=\sum _{ x\in { C }_{ k } }^{ }{ \left( x-{ \mu }_{ k } \right) { \left( x-{ \mu }_{ k } \right) }^{ T } } $$ lo que me da una cantidad escalar para $x$ $\mu_k$ del tamaño de la $1 \times d$. Lo que debe $S_{ k(i,j) }$? Dado un conjunto de datos de $n$ observaciones $d$ variables/funciones (es decir,$n \times d$), lo que debería ser el tamaño de $S_k$?

Para aclarar más mi problema, supongamos que uno de los grupos tiene 2 miembros (filas) con 3 variables/funciones (columnas): $$ C_k = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix} $$ Entonces $$ { x }_{ 1 }=\left[ \begin{matrix} 1 & 2 & 3 \end{de la matriz} \right] \\ { x }_{ 2 }=\left[ \begin{matrix} 4 & 5 & 6 \end{de la matriz} \right] \\ { \mu }_{ k }=media\left( { x }_{ 1 },{ x }_{ 2 } \right) =\left[ \begin{matrix} 2.5 & 3.5 & 4.5 \end{de la matriz} \right] \\ \left( { x }_{ 1 }-{ \mu }_{ k } \right) { \left( { x }_{ 1 }-{ \mu }_{ k } \right) }^{ T }=\left[ \begin{matrix} -1.5 & -1.5 & -1.5 \end{de la matriz} \right] \left[ \begin{matrix} -1.5 \\ -1.5 \\ -1.5 \end{de la matriz} \right] =6.75\\ \left( { x }_{ 2 }-{ \mu }_{ k } \right) { \left( { x }_{ 2 }-{ \mu }_{ k } \right) }^{ T }=\left[ \begin{matrix} 1.5 & 1.5 & 1.5 \end{de la matriz} \right] \left[ \begin{matrix} 1.5 \\ 1.5 \\ 1.5 \end{de la matriz} \right] =6.75\\ { S }_{ k }=\sum _{ x\in { C }_{ k } }^{ }{ \left( x-{ \mu }_{ k } \right) { \left( x-{ \mu }_{ k } \right) }^{ T } } =6.75+6.75=13.5 $$ Por eso, $S_k$ es escalar y, en consecuencia, $S_W$ será escalar. ¿De dónde me vaya mal en el cálculo anterior de dispersión de la matriz para un clúster?

Actualización 2:

Así, los puntos de datos deben ser vectores columna. $$ { x }_{ 1 }=\left[ \begin{matrix} 1 \\ 2 \\ 3 \end{de la matriz} \right] \\ { x }_{ 2 }=\left[ \begin{matrix} 4 \\ 5 \\ 6 \end{de la matriz} \right] \\ { \mu }_{ k }=media\left( { x }_{ 1 },{ x }_{ 2 } \right) =\left[ \begin{matrix} 2.5 \\ 3.5 \\ 4.5 \end{de la matriz} \right] \\ \left( { x }_{ 1 }-{ \mu }_{ k } \right) { \left( { x }_{ 1 }-{ \mu }_{ k } \right) }^{ T }=\left[ \begin{matrix} -1.5 \\ -1.5 \\ -1.5 \end{de la matriz} \right] \left[ \begin{matrix} -1.5 & -1.5 & -1.5 \end{de la matriz} \right] =\left[ \begin{matrix} 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \end{de la matriz} \right]\\ \left( { x }_{ 2 }-{ \mu }_{ k } \right) { \left( { x }_{ 2 }-{ \mu }_{ k } \right) }^{ T }=\left[ \begin{matrix} 1.5 \\ 1.5 \\ 1.5 \end{de la matriz} \right] \left[ \begin{matrix} 1.5 & 1.5 & 1.5 \end{de la matriz} \right] =\left[ \begin{matrix} 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \end{de la matriz} \right]\\ { S }_{ k }=\sum _{ x\in { C }_{ k } }^{ }{ \left( x-{ \mu }_{ k } \right) { \left( x-{ \mu }_{ k } \right) }^{ T } } =\left[ \begin{matrix} 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \end{de la matriz} \right]+\left[ \begin{matrix} 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \\ 2.25 & 2.25 & 2.25 \end{de la matriz} \right]=\left[ \begin{matrix} 4.5 & 4.5 & 4.5 \\ 4.5 & 4.5 & 4.5 \\ 4.5 & 4.5 & 4.5 \end{de la matriz} \right] $$ Y por último, $S_W=\sum _{ k=1 }^{ K } S_k$. Sí, esta es la matriz! Puedo hacerlo bien esta vez?

El tamaño de $S_W$ es $d \times d$ ($d$ siendo dimensión/no. de las características de los puntos de datos). $trace(S_W)$ es entonces la suma de cuadrados de error.

Actualización 3:

Utilizando el enfoque dado por @ttnphns, la matriz de datos para el grupo de k puede ser dispuestos en filas (mientras que las ecuaciones anteriores tienen datos en columnas): $$ X_k = \begin{bmatrix} x_1^T \\ x_2^T \end{bmatrix} = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix} $$

Cada una de las columnas tiene 2 elementos, por lo tanto, el centro de la matriz de columnas, el centro de la matriz es $$ C_2 = I(2) - \frac{1}{n}O(2) = \begin{bmatrix} 0.5 & -0.5 \\ -0.5 & 0.5 \end{bmatrix} $$ donde $I(2)$ es identificar la matriz de tamaño 2, $O(2)$ es de 2-por-2 de la matriz de todos los 1.

Centro de las columnas de la matriz $X_k$, $$ X_k^c = C_2X_k = \begin{bmatrix} 0.5 & -0.5 \\ -0.5 & 0.5 \end{bmatrix}\begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix}\\=\begin{bmatrix} -1.5 & -1.5 & -1.5 \\ 1.5 & 1.5 & 1.5 \end{bmatrix} $$ Do $X_k^{c~T}X_k^c$ da $S_k$ $$ S_k=X_k^{c~T}X_k^c = \begin{bmatrix} -1.5 & 1.5 \\ -1.5 & 1.5 \\ -1.5 & 1.5 \end{bmatrix}\begin{bmatrix} -1.5 & -1.5 & -1.5 \\ 1.5 & 1.5 & 1.5 \end{bmatrix}\\=\begin{bmatrix} 4.5 & 4.5 & 4.5 \\ 4.5 & 4.5 & 4.5 \\ 4.5 & 4.5 & 4.5 \end{bmatrix} $$ Este es el mismo como en la Actualización 2.

4voto

Uri Puntos 111

Lo que @whuber y yo estábamos diciendo en los comentarios son equivalentes las cosas. @whuber señaló que el texto que estaba leyendo hace que la columna de puntos de vectores. Me pegué a su propia notación original, donde los puntos son vectores fila (de esta forma de presentación es más común). Cuando los puntos están columnas, thansposed ("T", o simplemente " en mi notación) multiplicador de la derecha; cuando están filas, es el de la izquierda. En lugar de multiplicar por separado vectores, es más conveniente para multiplicar conjunto de las matrices. Verás con tus datos (matriz A = su "Ck"):

****** Points are rows, variables are columns [more common] ******
A
  1  2  3
  4  5  6

Column-centered A
  -1.500000000  -1.500000000  -1.500000000
   1.500000000   1.500000000   1.500000000

A'A, the scatter matrix
   4.500000000   4.500000000   4.500000000
   4.500000000   4.500000000   4.500000000
   4.500000000   4.500000000   4.500000000

****** Points are columns, variables are rows [that's how in your book] ******    
A
  1  4
  2  5
  3  6

Row-centered A
  -1.500000000   1.500000000
  -1.500000000   1.500000000
  -1.500000000   1.500000000

AA', the scatter matrix
   4.500000000   4.500000000   4.500000000
   4.500000000   4.500000000   4.500000000
   4.500000000   4.500000000   4.500000000

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X