11 votos

Estandarización de las características cuando se utiliza el LDA como paso previo al procesamiento

Si se utiliza un Análisis Discriminante Lineal multiclase (o también leo a veces Análisis Discriminante Múltiple) para la reducción de la dimensionalidad (o la transformación después de la reducción de la dimensionalidad a través de PCA), entiendo que en general no será necesaria una "normalización de la puntuación Z" (o estandarización) de las características, incluso si se miden en escalas completamente diferentes, ¿correcto? Dado que LDA contiene un término similar a la distancia de Mahalanobis que ya implica distancias euclidianas normalizadas?

Así que no sólo no sería necesario, sino que los resultados después de un LDA sobre características estandarizadas y no estandarizadas deberían ser exactamente los mismos?

1 votos

in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales No, esta afirmación es incorrecta. La cuestión de la estandarización con LDA es la misma que en cualquier método multivariante. Por ejemplo, PCA. La distancia de Mahalanobis no tiene nada que ver con ese tema.

0 votos

Gracias, sería estupendo si pudieras comentar este "problema de normalización" en PCA, por ejemplo. Si las características no están estandarizadas para PCA, ¿no contribuirán (ponderarán) más algunas características si se miden en una escala diferente y me dan ejes de componentes completamente diferentes? Y para el LDA, ¿por qué no va a ser necesario? ¿Es el resultado (los discriminantes lineales) diferente, y si no, por qué?

2 votos

Cuando estandarice (es decir, centre y luego escale), en realidad estará analizando correlaciones. Si no estandariza y sólo centra, en realidad estará analizando covarianzas. Los resultados serán diferentes, lo cual es normal, porque es como si tratara con datos diferentes. Este hecho no debería preocuparte. Quizá le guste leer el hilo stats.stackexchange.com/q/62677/3277 .

18voto

zowens Puntos 1417

El mérito de esta respuesta corresponde en realidad a @ttnphns, que lo ha explicado todo en los comentarios anteriores. Aun así, me gustaría dar una respuesta más amplia.

A su pregunta: ¿los resultados del LDA con características estandarizadas y no estandarizadas van a ser exactamente los mismos? --- la respuesta es . Primero daré un argumento informal, y luego procederé con algunas matemáticas.

Imagínese un conjunto de datos 2D que se muestra como un gráfico de dispersión en un lado de un globo (imagen original del globo tomada de aquí ): LDA on a baloon

Aquí los puntos rojos son una clase, los puntos verdes son otra clase, y la línea negra es el límite de la clase LDA. Ahora el cambio de escala de $x$ o $y$ ejes corresponde a estirar el globo horizontal o verticalmente. Es intuitivo que, aunque la pendiente de la línea negra cambie después de dicho estiramiento, las clases serán exactamente igual de separables que antes, y la posición relativa de la línea negra no cambiará. Cada observación de la prueba se asignará a la misma clase que antes del estiramiento. Por tanto, se puede decir que el estiramiento no influye en los resultados del LDA.


Ahora, matemáticamente, el LDA encuentra un conjunto de ejes discriminantes calculando los vectores propios de $\mathbf{W}^{-1} \mathbf{B}$ , donde $\mathbf{W}$ y $\mathbf{B}$ son matrices de dispersión dentro y entre clases. Equivalentemente, son vectores propios generalizados del problema de valores propios generalizados $\mathbf{B}\mathbf{v}=\lambda\mathbf{W}\mathbf{v}$ .

Considere una matriz de datos centrada $\mathbf{X}$ con las variables en las columnas y los puntos de datos en las filas, de modo que la matriz de dispersión total viene dada por $\mathbf{T}=\mathbf{X}^\top\mathbf{X}$ . Estandarizar los datos equivale a escalar cada columna de $\mathbf{X}$ por un número determinado, es decir, sustituyéndolo por $\mathbf{X}_\mathrm{new}= \mathbf{X}\boldsymbol\Lambda$ , donde $\boldsymbol\Lambda$ es una matriz diagonal con coeficientes de escala (inversos de las desviaciones estándar de cada columna) en la diagonal. Después de dicho reescalado, la matriz de dispersión cambiará de la siguiente manera: $\mathbf{T}_\mathrm{new} = \boldsymbol\Lambda\mathbf{T}\boldsymbol\Lambda$ y la misma transformación ocurrirá con $\mathbf{W}_\mathrm{new}$ y $\mathbf{B}_\mathrm{new}$ .

Dejemos que $\mathbf{v}$ sea un vector propio del problema original, es decir $$\mathbf{B}\mathbf{v}=\lambda\mathbf{W}\mathbf{v}.$$ Si multiplicamos esta ecuación por $\boldsymbol\Lambda$ a la izquierda, e inserte $\boldsymbol\Lambda\boldsymbol\Lambda^{-1}$ en ambos lados antes de $\mathbf{v}$ obtenemos $$\boldsymbol\Lambda\mathbf{B}\boldsymbol\Lambda\boldsymbol\Lambda^{-1}\mathbf{v}=\lambda\boldsymbol\Lambda\mathbf{W}\boldsymbol\Lambda\boldsymbol\Lambda^{-1}\mathbf{v},$$ es decir $$\mathbf{B}_\mathrm{new}\boldsymbol\Lambda^{-1}\mathbf{v}=\lambda\mathbf{W}_\mathrm{new}\boldsymbol\Lambda^{-1}\mathbf{v},$$ lo que significa que $\boldsymbol\Lambda^{-1}\mathbf{v}$ es un vector propio después de reescalar con exactamente el mismo valor propio $\lambda$ como antes.

Por lo tanto, el eje discriminante (dado por el vector propio) cambiará, pero su valor propio, que muestra cuánto se separan las clases, permanecerá exactamente igual. Además, la proyección sobre este eje, que originalmente estaba dada por $\mathbf{X}\mathbf{v}$ será ahora dada por $ \mathbf{X}\boldsymbol\Lambda (\boldsymbol\Lambda^{-1}\mathbf{v})= \mathbf{X}\mathbf{v}$ es decir, también se mantendrá exactamente igual (quizás hasta un factor de escala).

3 votos

+1. La "moraleja" de toda la historia es que la diferencia entre los únicos datos centrados $\bf X$ y los datos normalizados $\bf X \Lambda$ es absurdo por completo en los vectores propios. Así, cuando los datos se multiplican por los vectores propios correspondientes para obtener puntuaciones discriminantes, el efecto $\bf \Lambda$ de la normalización se anula.

0voto

Josh Puntos 310

Además de la estupenda respuesta de @amoeba, yo añadiría que como la puntuación "1D-Fisher" es insensible al escalado y que corresponde a los valores propios de la eigendecomposición de la matriz $S_w^{-1}S_b$ (o $W^{-1}B$ utilizando las notaciones de @amoeba), se puede ver por qué la separabilidad (es decir, la puntuación) será la misma, independientemente de si se escalan los datos o no. En otras palabras, la puntuación de Fisher es inmune a la transformación lineal - esto es básicamente lo que muestra el ejemplo del globo de arriba (que me pareció brillante, por cierto).

En efecto, como el operador de la media es lineal y el de la varianza es tal que $Var(aX+b) = a^2Var(X)$ se puede demostrar (utilizando aritmética básica) que la puntuación de Fisher para los datos sin escalar (digamos, para 2 clases A y B) : $$J = \frac{(\bar{x_A} - \bar{x_B})^2}{\sigma_A^2 + \sigma_B^2}$$ se convierte después de escalar el $x$ vector a $x' = \frac{x-\bar{x}}{\sigma_x}$ : $$J' = \frac{(\bar{x'_A} - \bar{x'_B})^2}{\sigma_{A'}^2+\sigma_{B'}^2} = \frac{(\frac{\bar{x_A} - \bar{x}}{\sigma_x} -\frac{\bar{x_B} - \bar{x}}{\sigma_x} )^2}{\frac{\sigma_A^2}{\sigma_x^2} + \frac{\sigma_B^2}{\sigma_x^2}} = \frac{(\bar{x_A} - \bar{x_B})^2}{\sigma_A^2 + \sigma_B^2} = J$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X