2 votos

Óptimo $\mathbf{W}$ son los vectores propios generalizados en $\mathbf{S}_\text{B}\mathbf{v}_i = \lambda_i \mathbf{S}_\text{W} \mathbf{v}_i$

Estoy intentando comprender el análisis discriminante lineal (también conocido como análisis discriminante de Fisher).

Estoy leyendo este informe técnico y Pattern Recognition and Machine Learning de Christopher Bishop (sección 4.1.4, p.187).

Primero, algunas definiciones:

  • Un dato $\mathbf{x}_n$ se define como un vector de columnas con $M$ componentes.
  • $\mathbf{X}$ se define como $(M, N)$ matriz donde las columnas son los puntos de datos $\mathbf{x}_n$ .
  • $K$ es el número de clases.
  • $\mathbf{S}_\text{B}$ : covarianza entre clases de los datos antes de la proyección.
  • $\mathbf{S}_\text{W}$ : covarianza dentro de la clase de los datos antes de la proyección.
  • $\mathbf{s}_\text{B}$ : covarianza entre clases de los datos proyectados.
  • $\mathbf{s}_\text{W}$ : covarianza dentro de la clase de los datos proyectados.

La idea general en el análisis discriminante de Fisher es proyectar los puntos de datos en $\mathbf{X}$ a un $K - 1$ espacio que maximiza $\mathbf{s}_\text{B}$ y minimiza $\mathbf{s}_\text{W}$ .

En el informe técnico, el criterio de discriminación se define como

$$J(\mathbf{W}) = \frac{|\mathbf{s}_\text{B}|}{|\mathbf{s}_\text{W}|} = \frac{|\mathbf{W}^\mathsf{T}\mathbf{S}_\text{B}\mathbf{W}|}{|\mathbf{W}^\mathsf{T}\mathbf{S}_\text{W}\mathbf{W}|} = \frac{\text{det}(\mathbf{W}^\mathsf{T}\mathbf{S}_\text{B}\mathbf{W})}{\text{det}(\mathbf{W}^\mathsf{T}\mathbf{S}_\text{W}\mathbf{W})}$$

Pregunta $(1)$ surge aquí: por qué la maximización de la relación de los discriminantes es un buen criterio para maximizar $\mathbf{s}_\text{B}$ y minimizar $\mathbf{s}_\text{W}$ ? (parece que hay una noción básica de álgebra lineal que se me escapa)

Ahora, justo después de definir este criterio, dicen que las columnas de un óptimo $\mathbf{W}$ son los vectores propios generalizados $\mathbf{v}_i$ que corresponden a los valores propios no nulos $\lambda_i$ en

$$\mathbf{S}_\text{B} \mathbf{v}_i = \lambda_i \mathbf{S}_\text{W} \mathbf{v}_i,$$

sujeto a la restricción de normalización

$$\mathbf{v}_i^\mathsf{T}\mathbf{S}_\text{W}\mathbf{v}_i = 1.$$

Ahora surge la pregunta $(2)$ : ¿por qué es esto cierto?

Para encontrar el óptimo $\mathbf{W}$ Supongo que tenemos que resolver $\frac{\partial J(\mathbf{W})}{\partial\mathbf{W}} = 0$ para $\mathbf{W}$ . Empecé por señalar primero (del libro de cocina de Matrix) que

$$\frac{\partial\text{det}(\mathbf{W}^\mathsf{T}\mathbf{A}\mathbf{W})}{\partial \mathbf{W}} = 2 \text{det}(\mathbf{W}^\mathsf{T}\mathbf{A}\mathbf{W})\mathbf{A}\mathbf{W}(\mathbf{W}^\mathsf{T}\mathbf{A}\mathbf{W})^{-1}$$

para cualquier matriz simétrica $\mathbf{A}$ ( $\mathbf{S}_\text{B}$ y $\mathbf{S}_\text{W}$ son simétricas, ya que son matrices de covarianza).

Esto me lleva a lo siguiente

$$\frac{\partial J(\mathbf{W})}{\partial\mathbf{W}} = \frac{2|\mathbf{W}^\mathsf{T} \mathbf{S}_\text{B}\mathbf{W}|\{ \mathbf{S}_\text{B}\mathbf{W}(\mathbf{W}^\mathsf{T} \mathbf{S}_\text{B}\mathbf{W})^{-1} - \mathbf{S}_\text{W}\mathbf{W}(\mathbf{W}^\mathsf{T} \mathbf{S}_\text{W}\mathbf{W})^{-1} \}} {|\mathbf{W}^\mathsf{T} \mathbf{S}_\text{W}\mathbf{W}|}$$

Pero entonces no estoy seguro de adónde voy y me hubiera gustado tener alguna idea.

2voto

Alexander Puntos 31

Así que vuelvo con las respuestas a mis preguntas, por si puede ayudar a alguien que se tropiece con esto. Al final, como adiviné en la pregunta, se trata de nociones/intuiciones de álgebra lineal que me faltaban.

  1. El discriminante de un $(n \times n)$ matriz $\mathbf{A} = [\mathbf{a}_1 \enspace \mathbf{a}_2 \enspace \cdots \enspace \mathbf{a}_n]$ , donde $\mathbf{a}_i$ son sus vectores columna, tiene una interpretación geométrica como el cuadrado $n$ -volumen dimensional de la $n$ -paralelotopo formado por los vectores columna de $\mathbf{A}$ .

    Además, una propiedad conocida del determinante es

    $$\det(\mathbf{A}) = \prod_{i=1}^n \lambda_i$$ donde $\lambda_i$ son los valores propios de $\mathbf{A}$ .

    El determinante de una matriz de covarianza suele llamarse varianza generalizada es un útil estadístico de valor real que representa la dispersión de los datos y que es una función de las varianzas y covarianzas de las diferentes características del conjunto de datos. Cuanto mayores sean las varianzas, mayor será el determinante. Cuanto mayores sean las covarianzas, menor será el determinante.

    Volviendo a nuestro problema inicial de por qué maximizando $\frac{\det( \mathbf{s}_\mathrm{B})}{\det(\mathbf{s}_\mathrm{W})}$ tiene sentido. Ahora está claro que maximizar $\det( \mathbf{s}_\mathrm{B})$ maximiza la dispersión de los conglomerados formados al reagrupar los puntos que pertenecen a la misma clase y minimiza $\det( \mathbf{s}_\mathrm{W})$ minimiza la dispersión de los puntos de la misma clase. Nótese que estamos hablando de las varianzas y covarianzas de los datos proyectados y que $\mathbf{s}_\mathrm{B} = \mathbf{W}^\mathrm{T}\mathbf{S}_\mathrm{B}\mathbf{W}$ y $\mathbf{s}_\mathrm{W} = \mathbf{W}^\mathrm{T}\mathbf{S}_\mathrm{W}\mathbf{W}$ .

  2. Trabajo en curso

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X