Aquí es un breve cuento sobre el Análisis Discriminante Lineal (LDA), como una respuesta a la pregunta.
Cuando tenemos una variable y $k$ grupos (clases) para discriminar por ello, este es el método ANOVA. El poder de discriminación de la variable es $SS_{between groups} / SS_{within groups}$ o $B/W$.
Cuando tenemos $p$ variables, esto es MANOVA. Si las variables no están correlacionadas, ni en el total de la muestra, ni dentro de los grupos, los de arriba, a continuación, poder de discriminación, $B/W$, se calcula de forma análoga y podría ser escrito como $trace(\bf{S_b})$$/trace(\bf{S_w})$, donde $\bf{S_w}$ es el conjunto dentro del grupo de dispersión de la matriz (es decir, la suma de $k$ $p$x$p$ SSCP matrices de las variables, centrada alrededor de los respectivos grupos centroide); $\bf{S_b}$ es el entre-grupo de dispersión de la matriz $=\bf{S_t}-\bf{S_w}$ donde $\bf{S_t}$ es la dispersión de la matriz para el conjunto de los datos (SSCP de la matriz de las variables centrado sobre el grand centroide. (Una "dispersión de la matriz" es sólo una matriz de covarianza sin devidedness por sample_size-1.)
Cuando existe una cierta correlación entre las variables y por lo general no es - por encima de la $B/W$ es expresada por $\bf{S_w^{-1} S_b}$ que no es un escalar más, pero de una matriz. Esto es simplemente debido a que no se $p$ discriminativo variables oculta detrás de este "general" de la discriminación y, en parte, la distribución de ella.
Ahora, es posible que desee sumergirse en el MANOVA y descomponer $\bf{S_w^{-1} S_b}$ nuevos y mutuamente ortogonales latente variables (su número es $min(p,k-1)$) se llama discriminante de las funciones o discriminantes - el 1º de ser el más fuerte discriminador, la 2ª estar al lado de, detrás de, etc. Justo como lo hacen en la Principal component analysis. Nos reemplazar original correlacionados con las variables correlacionadas discriminantes sin pérdida de poder discriminativo. Porque cada discriminante es más débil y más débil podemos aceptar un pequeño subconjunto de la primera $m$ discriminantes sin gran pérdida de poder discriminativo (de nuevo, de forma similar a cómo utilizar PCA). Esta es la esencia de la LDA como técnica de reducción de la dimensionalidad (LDA es una de Bayes clasificación técnica, pero esto es totalmente un tema aparte).
LDA por tanto se asemeja a la PCA. PCA se descompone "correlatedness", LDA se descompone "separatedness". En LDA, porque el anterior de la matriz que expresa "separatedness" no es simétrica, un by-pass algebraicas truco se utiliza para encontrar sus autovalores y autovectores$^1$. Autovalor de cada función discriminante (una variable latente) es su poder discriminativo $B/W$ os decía en el primer párrafo. También, vale la pena mencionar que discriminantes, aunque no correlacionados, no son geométricamente ortogonal como ejes dibujados en la variable original del espacio.
Algunos posibles temas relacionados que usted puede ser que desee leer:
LDA es MANOVA "profundizado" en el análisis de estructura latente y es un caso particular de análisis de correlación Canónica.
Cómo LDA clasifica objetos y cuáles son de Fisher de los coeficientes. (I link sólo para mis propias respuestas en la actualidad, como recuerdo de ellos, pero hay muchos buenos y mejores respuestas de otras personas en este sitio).
$^1$ LDA la fase de extracción de los cálculos son como sigue. Autovalores ( $\bf L$ ) $\bf{S_w^{-1} S_b}$ son los mismos de la matriz simétrica $\bf{(U^{-1})' S_b U^{-1}}$ donde $\bf U$ es el Cholesky raíz de $\bf{S_w}$: una parte superior triangular de la matriz de la cual $\bf{U'U=S_w}$. Como para los vectores propios de a $\bf{S_w^{-1} S_b}$, están dados por $\bf{V=U^{-1} E}$ donde $\bf E$ son los vectores propios de la anterior matriz $\bf{(U^{-1})' S_b U^{-1}}$.
Correlaciones canónicas correspondientes a los autovalores son $\bf \Gamma = \sqrt{L/(L+1)}$. Mientras que el autovalor de un discriminante es $B/W$ de la ANOVA de que discriminante canónica correlación al cuadrado es $B/T$ (T = total suma de cuadrados) de que ANOVA.
Si usted normalizar las columnas de autovectores $\bf V$, a continuación, estos valores pueden ser vistos como la dirección de los cosenos de la rotación de ejes-variables en ejes discriminantes; así que con su ayuda uno puede parcela discriminantes como ejes en el diagrama de dispersión definida por las variables originales (los vectores propios, como de los ejes en los que las variables de espacio, no son ortogonales).
El no estandarizado discriminante coeficientes o pesos son simplemente de la escala de los vectores propios $\bf {C}= \it \sqrt{N-k} ~\bf V$. Estos son los coeficientes de predicción lineal de discriminantes por el centro original de variables. Los valores de discriminante de las funciones de los mismos (discriminante de las puntuaciones) $\bf XC$ donde $\bf X$ es el centrado en variables originales (entrada de datos multivariantes con cada columna centrada). Discriminantes no están correlacionados. Y cuando calculada por el justo por encima de la fórmula que también tienen la propiedad de que sus agrupado dentro de la clase matriz de covarianza es la matriz identidad.
Opcional términos constantes que acompañan a la no estandarizado de los coeficientes y de permitir a las naciones unidas-centro de la discriminantes si las variables de entrada tenía un valor distinto de cero significa que se $\bf {C_0} \it = -\sum^p diag(\bar{X}) \bf C$ donde $diag(\bar{X}) $ es la matriz diagonal de las p variables medios y $\sum^p$ es la suma de las variables.
En discriminante estandarizada de los coeficientes, la contribución de las variables en un discriminante se ajusta al hecho de que las variables tienen diferentes variaciones y puede ser medida en diferentes unidades; $\bf {K} \it = \sqrt{diag \bf (S_w)} \bf V$ (donde el diag(Sw) es la matriz diagonal con la diagonal de $\bf S_w$). A pesar de ser "normalizado", estos coeficientes en ocasiones puede exceder de 1 (para que no se confunda). Si las variables de entrada fueron z estandarizado dentro de cada clase por separado, estandarizados coeficientes = no estandarizado. Los coeficientes pueden ser utilizados para interpretar discriminantes.
Agrupadas dentro del grupo de las correlaciones ("la estructura de la matriz") entre las variables y discriminantes son dadas por $\bf R= \it diag \bf (S_w)^{-1} \bf S_w V$. Las correlaciones son insensibles a los problemas de colinealidad y constituyen una alternativa (para los coeficientes) orientación en la evaluación de las variables de las contribuciones, y en la interpretación de discriminantes.
Ver la salida completa de la fase de extracción del análisis discriminante de iris de datos aquí.
Leer esta agradable tarde de respuesta que explica un poco más formal y detallada de las mismas cosas que hice aquí.
Esta cuestión se aborda la cuestión de la normalización de los datos antes de hacer la LDA.