16 votos

Álgebra de LDA. Poder de discriminación de Fisher de una variable y análisis discriminante lineal

Al parecer,

el Pescador análisis pretende, simultáneamente, maximizar el entre la clase de separación, mientras que la minimización de la dentro de la clase la dispersión. Una forma útil de medir el poder de discriminación de una variable por lo tanto, es dada por la diagonal cantidad: $B_{ii}/W_{ii}$.

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

Entiendo que el tamaño (n x n) de la Entre (B) y Dentro de Clase (W) matrices están dadas por el número de variables de entrada, n. Dado esto, ¿cómo puede $B_{ii}/W_{ii}$ ser una "medida útil de la discriminación poder" de una sola variable? Al menos dos variables que se requieren para la construcción de las matrices B y W, por lo que los respectivos seguimientos representaría más de una variable.

Actualización: Estoy en lo cierto al pensar que $B_{ii}/W_{ii}$ no es un seguimiento a través de un rastro, donde la suma es implícita, pero el elemento de la matriz $B_{ii}$ dividido por $W_{ii}$? En la actualidad y que es la única manera de conciliar la expresión con el concepto.

31voto

Uri Puntos 111

Aquí es un breve cuento sobre el Análisis Discriminante Lineal (LDA), como una respuesta a la pregunta.

Cuando tenemos una variable y $k$ grupos (clases) para discriminar por ello, este es el método ANOVA. El poder de discriminación de la variable es $SS_{between groups} / SS_{within groups}$ o $B/W$.

Cuando tenemos $p$ variables, esto es MANOVA. Si las variables no están correlacionadas, ni en el total de la muestra, ni dentro de los grupos, los de arriba, a continuación, poder de discriminación, $B/W$, se calcula de forma análoga y podría ser escrito como $trace(\bf{S_b})$$/trace(\bf{S_w})$, donde $\bf{S_w}$ es el conjunto dentro del grupo de dispersión de la matriz (es decir, la suma de $k$ $p$x$p$ SSCP matrices de las variables, centrada alrededor de los respectivos grupos centroide); $\bf{S_b}$ es el entre-grupo de dispersión de la matriz $=\bf{S_t}-\bf{S_w}$ donde $\bf{S_t}$ es la dispersión de la matriz para el conjunto de los datos (SSCP de la matriz de las variables centrado sobre el grand centroide. (Una "dispersión de la matriz" es sólo una matriz de covarianza sin devidedness por sample_size-1.)

Cuando existe una cierta correlación entre las variables y por lo general no es - por encima de la $B/W$ es expresada por $\bf{S_w^{-1} S_b}$ que no es un escalar más, pero de una matriz. Esto es simplemente debido a que no se $p$ discriminativo variables oculta detrás de este "general" de la discriminación y, en parte, la distribución de ella.

Ahora, es posible que desee sumergirse en el MANOVA y descomponer $\bf{S_w^{-1} S_b}$ nuevos y mutuamente ortogonales latente variables (su número es $min(p,k-1)$) se llama discriminante de las funciones o discriminantes - el 1º de ser el más fuerte discriminador, la 2ª estar al lado de, detrás de, etc. Justo como lo hacen en la Principal component analysis. Nos reemplazar original correlacionados con las variables correlacionadas discriminantes sin pérdida de poder discriminativo. Porque cada discriminante es más débil y más débil podemos aceptar un pequeño subconjunto de la primera $m$ discriminantes sin gran pérdida de poder discriminativo (de nuevo, de forma similar a cómo utilizar PCA). Esta es la esencia de la LDA como técnica de reducción de la dimensionalidad (LDA es una de Bayes clasificación técnica, pero esto es totalmente un tema aparte).

LDA por tanto se asemeja a la PCA. PCA se descompone "correlatedness", LDA se descompone "separatedness". En LDA, porque el anterior de la matriz que expresa "separatedness" no es simétrica, un by-pass algebraicas truco se utiliza para encontrar sus autovalores y autovectores$^1$. Autovalor de cada función discriminante (una variable latente) es su poder discriminativo $B/W$ os decía en el primer párrafo. También, vale la pena mencionar que discriminantes, aunque no correlacionados, no son geométricamente ortogonal como ejes dibujados en la variable original del espacio.

Algunos posibles temas relacionados que usted puede ser que desee leer:

LDA es MANOVA "profundizado" en el análisis de estructura latente y es un caso particular de análisis de correlación Canónica. Cómo LDA clasifica objetos y cuáles son de Fisher de los coeficientes. (I link sólo para mis propias respuestas en la actualidad, como recuerdo de ellos, pero hay muchos buenos y mejores respuestas de otras personas en este sitio).


$^1$ LDA la fase de extracción de los cálculos son como sigue. Autovalores ( $\bf L$ ) $\bf{S_w^{-1} S_b}$ son los mismos de la matriz simétrica $\bf{(U^{-1})' S_b U^{-1}}$ donde $\bf U$ es el Cholesky raíz de $\bf{S_w}$: una parte superior triangular de la matriz de la cual $\bf{U'U=S_w}$. Como para los vectores propios de a $\bf{S_w^{-1} S_b}$, están dados por $\bf{V=U^{-1} E}$ donde $\bf E$ son los vectores propios de la anterior matriz $\bf{(U^{-1})' S_b U^{-1}}$.

Correlaciones canónicas correspondientes a los autovalores son $\bf \Gamma = \sqrt{L/(L+1)}$. Mientras que el autovalor de un discriminante es $B/W$ de la ANOVA de que discriminante canónica correlación al cuadrado es $B/T$ (T = total suma de cuadrados) de que ANOVA.

Si usted normalizar las columnas de autovectores $\bf V$, a continuación, estos valores pueden ser vistos como la dirección de los cosenos de la rotación de ejes-variables en ejes discriminantes; así que con su ayuda uno puede parcela discriminantes como ejes en el diagrama de dispersión definida por las variables originales (los vectores propios, como de los ejes en los que las variables de espacio, no son ortogonales).

El no estandarizado discriminante coeficientes o pesos son simplemente de la escala de los vectores propios $\bf {C}= \it \sqrt{N-k} ~\bf V$. Estos son los coeficientes de predicción lineal de discriminantes por el centro original de variables. Los valores de discriminante de las funciones de los mismos (discriminante de las puntuaciones) $\bf XC$ donde $\bf X$ es el centrado en variables originales (entrada de datos multivariantes con cada columna centrada). Discriminantes no están correlacionados. Y cuando calculada por el justo por encima de la fórmula que también tienen la propiedad de que sus agrupado dentro de la clase matriz de covarianza es la matriz identidad.

Opcional términos constantes que acompañan a la no estandarizado de los coeficientes y de permitir a las naciones unidas-centro de la discriminantes si las variables de entrada tenía un valor distinto de cero significa que se $\bf {C_0} \it = -\sum^p diag(\bar{X}) \bf C$ donde $diag(\bar{X}) $ es la matriz diagonal de las p variables medios y $\sum^p$ es la suma de las variables.

En discriminante estandarizada de los coeficientes, la contribución de las variables en un discriminante se ajusta al hecho de que las variables tienen diferentes variaciones y puede ser medida en diferentes unidades; $\bf {K} \it = \sqrt{diag \bf (S_w)} \bf V$ (donde el diag(Sw) es la matriz diagonal con la diagonal de $\bf S_w$). A pesar de ser "normalizado", estos coeficientes en ocasiones puede exceder de 1 (para que no se confunda). Si las variables de entrada fueron z estandarizado dentro de cada clase por separado, estandarizados coeficientes = no estandarizado. Los coeficientes pueden ser utilizados para interpretar discriminantes.

Agrupadas dentro del grupo de las correlaciones ("la estructura de la matriz") entre las variables y discriminantes son dadas por $\bf R= \it diag \bf (S_w)^{-1} \bf S_w V$. Las correlaciones son insensibles a los problemas de colinealidad y constituyen una alternativa (para los coeficientes) orientación en la evaluación de las variables de las contribuciones, y en la interpretación de discriminantes.


Ver la salida completa de la fase de extracción del análisis discriminante de iris de datos aquí.

Leer esta agradable tarde de respuesta que explica un poco más formal y detallada de las mismas cosas que hice aquí.

Esta cuestión se aborda la cuestión de la normalización de los datos antes de hacer la LDA.

1voto

Igor Glinsky Puntos 11

Mientras que el B/n es un índice de discriminación, no es la medida más directa de la discriminación, que es la exactitud. Cuando una observación está previsto para ser un miembro de la clase 0, y es un miembro de la clase 0, un punto de entrega. Si predijo clase 1 y clase 1, un punto de entrega. Pero, si predijo 0 y real 1, o viceversa, no hay puntos.

Para cualquier tipo de muestra, y los datos de la geometría, estadística paradigma que explícitamente busca un modelo que maximiza la precisión de la clasificación, el número de puntos que es posible obtener en la aplicación. Todos los modelos son desarrollados utilizando una coincidencia exacta, no paramétrico de la metodología.

Aquí hay un enlace a la seminal introducción a la Óptima de Análisis de Datos (AOD) paradigma-donde "Óptima" significa "clasificar con la máxima precisión" (hay una reseña del libro, que viene con un software y está disponible en muchas bibliotecas, en esta página): http://www.apa.org/pubs/books/4316000.aspx

Aquí hay un enlace a un artículo que introduce el desarrollo temprano de paradigma: http://optimalprediction.com/files/pdf/V1A2.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X