31 votos

¿Cuál es la relación entre la regresión y el análisis discriminante lineal (LDA)?

¿Existe una relación entre la regresión y el análisis discriminante lineal (LDA)? ¿Cuáles son sus similitudes y diferencias? ¿Hay alguna diferencia si hay dos clases o más de dos clases?

7 votos

Nota para el lector: la pregunta es ambigua, puede entenderse como una pregunta sobre regresión logística o sobre regresión lineal . El OP parece haberse interesado por ambos aspectos (ver comentarios). La respuesta aceptada se refiere a la regresión lineal, pero otras respuestas se centran en la regresión logística.

24voto

Uri Puntos 111

Entiendo que la pregunta es sobre LDA y lineal regresión (no logística).

Existe una relación considerable y significativa entre regresión lineal y análisis discriminante lineal . En el caso de que la variable dependiente (VD) conste sólo de 2 grupos, los dos análisis son realmente idénticos. A pesar de que los cálculos son diferentes y los resultados -coeficientes de regresión y discriminantes- no son los mismos, son exactamente proporcional entre sí.

Ahora, la situación de más de dos grupos. En primer lugar, afirmemos que el LDA (su etapa de extracción, no de clasificación) es equivalente (resultados linealmente relacionados) a análisis de correlación canónica si convierte la agrupación DV en un conjunto de variables ficticias (con una redundante de ellas descartada) y hace un análisis canónico con los conjuntos "IVs" y "dummies". Variables canónicas en el lado del conjunto de "IVs" que se obtiene son lo que el LDA llama "funciones discriminantes" o "discriminantes".

Entonces, ¿cómo se relaciona el análisis canónico con la regresión lineal? El análisis canónico es en esencia un MANOVA (en el sentido de "regresión lineal múltiple multivariante" o "modelo lineal general multivariante") profundizó en estructura latente de las relaciones entre los VD y los IV. Estas dos variaciones se descomponen en sus interrelaciones en "variantes canónicas" latentes. Tomemos el ejemplo más sencillo, Y vs X1 X2 X3. La maximización de la correlación entre ambas partes es la regresión lineal (si se predice Y por Xs) o -lo que es lo mismo- es el MANOVA (si se predice Xs por Y). La correlación es unidimensional (con magnitud R^2 = traza de Pillai) porque el conjunto menor, Y, está formado por una sola variable. Ahora tomemos estos dos conjuntos Y1 Y2 vs X1 x2 x3. La correlación que se maximiza aquí es bidimensional porque el conjunto menor contiene 2 variables. La primera y más fuerte dimensión latente de la correlación se llama 1ª correlación canónica, y la parte restante, ortogonal a ella, 2ª correlación canónica. Así pues, el MANOVA (o la regresión lineal) se limita a preguntar cuáles son los papeles parciales (los coeficientes) de las variables en el conjunto de la correlación bidimensional de los conjuntos; mientras que el análisis canónico se limita a preguntar cuáles son los papeles parciales de las variables en la 1ª dimensión correlacional, y en la 2ª.

Así, el análisis de correlación canónica es una regresión lineal multivariante que profundiza en la estructura latente de la relación entre las VD y las IV. El análisis discriminante es un caso particular del análisis de correlación canónica ( ver exactamente cómo ). Así pues, aquí estaba la respuesta sobre la relación del LDA con la regresión lineal en un caso general de más de dos grupos.

Tenga en cuenta que mi respuesta no contempla en absoluto el LDA como técnica de clasificación. Hablaba de LDA sólo como técnica de extracción de datos. La clasificación es la segunda y única etapa de LDA (la describí aquí ). @Michael Chernick se centró en ello en sus respuestas.

0 votos

¿Por qué necesito el "análisis de correlación canónica" y qué hace aquí? Gracias.

0 votos

Uhm, no te entiendo. ¿Has leído la respuesta? El análisis canónico era necesario para aclarar cómo se relaciona el LDA con la regresión lineal; esta relación parece bastante compleja en el caso general de más de 2 grupos.

0 votos

Por lo tanto, tener una buena comprensión de MANOVA podría ser útil para nosotros para entender LDA en la extracción de características, ¿verdad?

12voto

mat_geek Puntos 1367

Aquí hay una referencia a uno de los trabajos de Efron: La eficacia de la regresión logística comparada con el análisis discriminante normal , 1975.

Otro documento relevante es el de Ng y Jordan, 2001, Sobre los clasificadores discriminativos frente a los generativos: Una comparación entre la regresión logística y el Bayes ingenuo . Y aquí hay un resumen de un comentario al respecto de Xue & Titterington , 2008, que menciona los trabajos de O'Neill relacionados con su tesis doctoral:

La comparación de clasificadores generativos y discriminativos es un tema de actualidad. Como una importante contribución a este tema, basada en en sus comparaciones teóricas y empíricas entre el clasificador naïve Bayes y la regresión logística lineal, Ng y Jordan (NIPS 841---848, 2001) afirmaron que existen dos regímenes distintos de rendimiento entre los clasificadores generativos y los discriminantes con con respecto al tamaño del conjunto de entrenamiento. En este trabajo, nuestros estudios empíricos y simulación, como complemento de su trabajo, sugieren que la existencia que la existencia de los dos regímenes distintos puede no ser tan fiable. Además, para los conjuntos de datos del mundo real, hasta ahora no existe un criterio general teóricamente teóricamente correcto para elegir entre el enfoque discriminativo y el los enfoques generativos para la clasificación de una observación $x$ en una clase $y$ la elección depende de la confianza relativa que tengamos en la corrección de la especificación de cualquiera de los dos $p(y|x)$ o $p(x, y)$ para los datos. Esto puede ser en cierta medida una demostración de por qué Efron (J Am Stat Assoc 70(352):892---898, 1975) y O'Neill (J Am Stat Assoc 75(369):154---160, 1980) prefieren el análisis discriminante lineal basado en la normalidad (LDA) cuando no se produce una especificación errónea del modelo, pero otros estudios empíricos pueden preferir la regresión logística lineal en su lugar. Además, sugerimos que el emparejamiento de LDA asumiendo una matriz de covarianza diagonal común (LDA) o el clasificador Bayes ingenuo y regresión logística lineal puede no ser perfecto y, por tanto, puede no ser fiable para cualquier afirmación que se derive de la comparación entre LDA o el clasificador Bayes ingenuo y la regresión logística lineal sea generalizarse a todos los clasificadores generativos y discriminativos.

Hay muchas otras referencias sobre esto que puedes encontrar en internet.

0 votos

+1 por las numerosas referencias bien situadas sobre el tema (ahora aclarado por el OP) de la regresión logística frente al LDA.

1 votos

Aquí hay otra comparación de clasificadores generativos y discriminativos realizada por Yaroslav Bulatov en Quora: quora.com/

0 votos

También un tema relacionado, stats.stackexchange.com/q/95247/3277

9voto

zowens Puntos 1417

El objetivo de esta respuesta es explicar la relación matemática exacta entre el análisis discriminante lineal (LDA) y la regresión lineal multivariante (MLR). Resultará que el marco correcto lo proporciona regresión de rango reducido (RRR).

Demostraremos que el LDA es equivalente al RRR del blanqueado matriz de indicadores de clase en la matriz de datos.


Notación

Dejemos que $\newcommand{\X}{\mathbf X}\X$ sea el $n\times d$ matriz con puntos de datos $\newcommand{\x}{\mathbf x}\x_i$ en las filas y las variables en las columnas. Cada punto pertenece a uno de los $k$ clases o grupos. Punto $\x_i$ pertenece a la clase número $g(i)$ .

Dejemos que $\newcommand{\G}{\mathbf G}\G$ sea el $n \times k$ matriz indicadora que codifica la pertenencia a un grupo de la siguiente manera: $G_{ij}=1$ si $\x_i$ pertenece a la clase $j$ y $G_{ij}=0$ de lo contrario. Hay $n_j$ puntos de datos en clase $j$ ; por supuesto $\sum n_j = n$ .

Suponemos que los datos están centrados y que la media global es igual a cero, $\newcommand{\bmu}{\boldsymbol \mu}\bmu=0$ . Sea $\bmu_j$ sea la media de la clase $j$ .

LDA

La matriz de dispersión total $\newcommand{\C}{\mathbf C}\C=\X^\top \X$ puede descomponerse en la suma de las matrices de dispersión entre clases y dentro de las clases definidas como sigue: \begin {align} \C_b &= \sum_j n_j \bmu_j \bmu_j ^ \top \\ \C_w &= \sum ( \x_i - \bmu_ {g(i)})( \x_i - \bmu_ {g(i)})^ \top. \end {align} Se puede comprobar que $\C = \C_b + \C_w$ . El LDA busca ejes discriminantes que tengan la máxima varianza entre grupos y la mínima varianza dentro del grupo de la proyección. En concreto, el primer eje discriminante es el vector unitario $\newcommand{\w}{\mathbf w}\w$ maximizando $\w^\top \C_b \w / (\w^\top \C_w \w)$ y la primera $p$ ejes discriminantes apilados en una matriz $\newcommand{\W}{\mathbf W}\W$ debe maximizar el rastro $$\DeclareMathOperator{\tr}{tr} L_\mathrm{LDA}=\tr\left(\W^\top \C_b \W (\W^\top \C_w \W)^{-1}\right).$$

Suponiendo que $\C_w$ es de rango completo, la solución LDA $\W_\mathrm{LDA}$ es la matriz de vectores propios de $\C_w^{-1} \C_b$ (ordenados por los valores propios en orden decreciente).

Esta era la historia habitual. Ahora hagamos dos observaciones importantes.

En primer lugar, la matriz de dispersión dentro de la clase puede sustituirse por la matriz de dispersión total (en última instancia, porque la maximización de $b/w$ equivale a maximizar $b/(b+w)$ ), y de hecho, es fácil ver que $\C^{-1} \C_b$ tiene los mismos vectores propios.

En segundo lugar, la matriz de dispersión entre clases puede expresarse a través de la matriz de pertenencia a grupos definida anteriormente. En efecto, $\G^\top \X$ es la matriz de sumas de grupos. Para obtener la matriz de medias de grupo, debe multiplicarse por una matriz diagonal con $n_j$ en la diagonal; viene dada por $\G^\top \G$ . Por lo tanto, la matriz de medias de grupo es $(\G^\top \G)^{-1}\G^\top \X$ ( sapienti se dará cuenta de que se trata de una fórmula de regresión). Para obtener $\C_b$ debemos tomar su matriz de dispersión, ponderada por la misma matriz diagonal, obteniendo $$\C_b = \X^\top \G (\G^\top \G)^{-1}\G^\top \X.$$ Si todos los $n_j$ son idénticos e iguales a $m$ ("conjunto de datos equilibrado"), entonces esta expresión se simplifica a $\X^\top \G \G^\top \X / m$ .

Podemos definir la matriz indicadora normalizada $\newcommand{\tG}{\widetilde {\mathbf G}}\tG$ como si tuviera $1/\sqrt{n_j}$ donde $\G$ tiene $1$ . Entonces, para ambos conjuntos de datos, equilibrados y no equilibrados, la expresión es simplemente $\C_b = \X^\top \tG \tG^\top \X$ . Tenga en cuenta que $\tG$ es, hasta un factor constante, el blanqueado matriz de indicadores: $\tG = \G(\G^\top \G)^{-1/2}$ .

Regresión

Para simplificar, empezaremos con el caso de un conjunto de datos equilibrado.

Considere la regresión lineal de $\G$ en $\X$ . Encuentra $\newcommand{\B}{\mathbf B}\B$ minimizar $\| \G - \X \B\|^2$ . La regresión de rango reducido hace lo mismo bajo la restricción de que $\B$ debe ser del rango dado $p$ . Si es así, entonces $\B$ puede escribirse como $\newcommand{\D}{\mathbf D} \newcommand{\F}{\mathbf F} \B=\D\F^\top$ con ambos $\D$ y $\F$ teniendo $p$ columnas. Se puede demostrar que la solución de rango dos se puede obtener a partir de la solución de rango manteniendo la primera columna y añadiendo una columna más, etc.

Para establecer la conexión entre el LDA y la regresión lineal, demostraremos que $\D$ coincide con $\W_\mathrm{LDA}$ .

La prueba es sencilla. Para el caso de la $\D$ , óptimo $\F$ se puede encontrar a través de la regresión: $\F^\top = (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G$ . Introduciendo esto en la función de pérdida, obtenemos $$\| \G - \X \D (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G\|^2,$$ que puede escribirse como traza utilizando la identidad $\|\mathbf A\|^2=\mathrm{tr}(\mathbf A \mathbf A^\top)$ . Tras fáciles manipulaciones obtenemos que la regresión es equivalente a maximizar (!) el siguiente rastro de miedo: $$\tr\left(\D^\top \X^\top \G \G^\top \X \D (\D^\top \X^\top \X \D)^{-1}\right),$$ que en realidad no es otra cosa que $$\ldots = \tr\left(\D^\top \C_b \D (\D^\top \C \D)^{-1}\right)/m \sim L_\mathrm{LDA}.$$

Con esto termina la prueba. Para los conjuntos de datos no equilibrados tenemos que sustituir $\G$ con $\tG$ .

Del mismo modo, se puede demostrar que añadir la regularización de crestas a la regresión de rango reducido es equivalente al LDA regularizado.

Relación entre LDA, CCA y RRR

En su respuesta, @ttnphns hizo una conexión con el análisis de correlación canónica (CCA). De hecho, se puede demostrar que el LDA es equivalente al CCA entre $\X$ y $\G$ . Además, la CCA entre cualquier $\newcommand{\Y}{\mathbf Y}\Y$ y $\X$ puede escribirse como RRR prediciendo el blanqueo $\Y$ de $\X$ . El resto se desprende de esto.

Bibliografía

Es difícil decir a quién corresponde el mérito de lo presentado anteriormente.

Hay un documento de conferencia reciente de Cai et al. (2013) Sobre el equivalente de las regresiones de bajo rango y las regresiones basadas en el análisis discriminante lineal que presenta exactamente la misma prueba que la anterior, pero da la impresión de que han inventado este enfoque. Esto no es el caso. Torre escribió un tratamiento detallado de cómo la mayoría de los métodos lineales multivariantes comunes pueden verse como regresión de rango reducido, véase Un marco de mínimos cuadrados para el análisis de componentes 2009, y un capítulo posterior del libro Unificación de los métodos de análisis de componentes , 2013; presenta el mismo argumento pero tampoco da referencias. Este material también se trata en el libro de texto Técnicas estadísticas multivariantes modernas (2008) de Izenman, que introdujo la RRR en 1975.

La relación entre LDA y CCA se remonta aparentemente a Bartlett, 1938, Otros aspectos de la teoría de la regresión múltiple -- esa es la referencia que encuentro a menudo (pero que no he verificado). La relación entre CCA y RRR se describe en el Izenman, 1975, Regresión de rango reducido para el modelo lineal multivariante . Así que todas estas ideas han existido durante un tiempo.

0 votos

+1 de mi parte por los detalles y por remitir a mi respuesta y por introducir el RRR aquí (¡subiendo el voto por adelantado porque pasará un tiempo desconocido antes de que me siente a desmenuzar todo ese magnífico/formidable álgebra!)

0voto

mat_geek Puntos 1367

La regresión lineal y el análisis discriminante lineal son muy diferentes. La regresión lineal relaciona una variable dependiente con un conjunto de variables predictoras independientes. La idea es encontrar una función lineal en los parámetros que se ajuste mejor a los datos. Ni siquiera tiene que ser lineal en las covariables. Por otro lado, el análisis discriminante lineal es un procedimiento para clasificar objetos en categorías. Para el problema de dos clases busca encontrar el mejor hiperplano de separación para dividir los grupos en dos categorías. Mejor significa que minimiza una función de pérdida que es una combinación lineal de los índices de error. Para tres o más grupos encuentra el mejor conjunto de hiperplanos (k-1 para el problema de k clases). En el análisis discriminante, los hiperplanos son lineales en las variables de características.

La principal similitud entre ambos es el término lineal en los títulos.

0 votos

Lo siento, he escrito mal. Debería ser regresión y LDA. He visto algunos artículos sobre discriminantes lineales mediante regresión, pero no sé cómo funciona. Creo que LDA y la regresión logística para dos clases tienen algunas relaciones, pero no puedo decir muy claramente cuáles son. Y para más de dos clases, no sé si hay relaciones.

1 votos

Sí, existe una relación entre la regresión logística y el análisis discriminante lineal. Efron y su estudiante Terry O'Neilll escribieron sobre esto a finales de los años 70. Intentaré encontrar un enlace a una referencia.

2 votos

Aquí hay una pregunta y respuestas relacionadas sobre el CV. stats.stackexchange.com/questions/14697/

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X