5 votos

Interpretación del grupo criterio $\operatorname{tr}(S_W^{-1}S_B)$

Hay un grupo criterio define como:

$$\mathcal{C} = \operatorname{tr}(S_W^{-1}S_B) = \sum_{i=1}^d \lambda_i,$$

where $\operatorname{tr}$ is the trace, $S_W$ is the pooled within-group scatter matrix, and $S_B$ is the between-group scatter matrix; $d$ is the number of features (or dimensions of the scatter matrices). I have two sources for it, one here (eq 103) and the other here (p.22).

The R package clusterCrit computes this as the matrix inverse of $S_W$ (he comparado sus resultados con un "manual" de cálculo), pero las diapositivas, basada en el libro de Duda, llame a esto "la relación de de entre dentro del clúster de dispersión en la dirección de los vectores propios".

Mis preguntas:

  1. Es la matriz inversa o de una división? Me parece un término similar en el análisis discriminante lineal, lo que es claramente una división. EDIT: es evidente que esto es la matriz inversa (no "de la matriz de la división").

  2. En la dirección de que los vectores propios? Lo que hace que la dirección de representar? ¿Qué hacen los vectores propios de a $S_W^{-1}S_B$ representan?

  3. Si esta es la matriz inversa, entonces entiendo que $S_W^{-1}$ puede ser interpretado como una precisión de la matriz. ¿Cuál es la interpretación intuitiva de la traza de $S_W^{-1}S_B$?

6voto

zowens Puntos 1417

$S_W^{-1}S_B$ puede ser interpretado como multivariante de señal-a-ruido.

El entre-clase de dispersión de la matriz $S_B$ nos dice cómo es lejos una de la otra clase de medios que se encuentra. Dentro de la clase de dispersión de la matriz $S_W$ nos dice cuánto de la variabilidad dentro de cada clase. Si las clases corresponden a la "señal" y dentro de la clase de la variabilidad puede ser visto como el ruido, a continuación, $S_W^{-1}S_B$ puede ser interpretado como multivariante de señal-a-ruido.

Si las clases están bien separados, luego de señal-a-ruido debe ser "grandes" ($S_W\ll S_B$). Si son completamente superpuestos, entonces la señal-a-ruido debe ser "pequeño" ($S_W \gg S_B$). El problema es que $S_W^{-1}S_B$ no es un número sino una matriz; así que ¿qué significa "grande" y "pequeño" significa realmente?

Hay varias formas razonables para cuantificar cómo los "grandes" $S_W^{-1}S_B$ es. Una forma es la de sumar sus valores propios, es decir, para calcular la traza. Como @ttnphns se mencionó, esto se llama traza de Hotelling y se utiliza como uno de los de la estadística de prueba en el MANOVA. Por eso, la interpretación es que es una manera de cuantificar la relación señal-a-ruido $S_W^{-1}S_B$.

A su vez, los vectores propios de a $S_W^{-1}S_B$ representan las direcciones en el espacio a lo largo de la cual la clase discriminabilidad es el más alto. El vector propio correspondiente a la mayor autovalor es el eje de la mejor clase de separación. En el análisis discriminante lineal (LDA) los vectores propios de a $S_W^{-1}S_B$ son llamados "discriminante de ejes".

Una vez que los datos se proyectan en el $i$-ésimo eje discriminante, el estándar univariante de señal-a-ruido definido como entre la clase suma de los cuadrados divididos por dentro de la clase suma de los cuadrados, será igual a $\lambda_i$. Esto explica la cita de Duda.


Leer más:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X