El objetivo de esta respuesta es explicar la relación matemática exacta entre el análisis discriminante lineal (LDA) y la regresión lineal multivariante (MLR). Resultará que el marco correcto lo proporciona regresión de rango reducido (RRR).
Demostraremos que el LDA es equivalente al RRR del blanqueado matriz de indicadores de clase en la matriz de datos.
Notación
Dejemos que $\newcommand{\X}{\mathbf X}\X$ sea el $n\times d$ matriz con puntos de datos $\newcommand{\x}{\mathbf x}\x_i$ en las filas y las variables en las columnas. Cada punto pertenece a uno de los $k$ clases o grupos. Punto $\x_i$ pertenece a la clase número $g(i)$ .
Dejemos que $\newcommand{\G}{\mathbf G}\G$ sea el $n \times k$ matriz indicadora que codifica la pertenencia a un grupo de la siguiente manera: $G_{ij}=1$ si $\x_i$ pertenece a la clase $j$ y $G_{ij}=0$ de lo contrario. Hay $n_j$ puntos de datos en clase $j$ ; por supuesto $\sum n_j = n$ .
Suponemos que los datos están centrados y que la media global es igual a cero, $\newcommand{\bmu}{\boldsymbol \mu}\bmu=0$ . Sea $\bmu_j$ sea la media de la clase $j$ .
LDA
La matriz de dispersión total $\newcommand{\C}{\mathbf C}\C=\X^\top \X$ puede descomponerse en la suma de las matrices de dispersión entre clases y dentro de las clases definidas como sigue: \begin {align} \C_b &= \sum_j n_j \bmu_j \bmu_j ^ \top \\ \C_w &= \sum ( \x_i - \bmu_ {g(i)})( \x_i - \bmu_ {g(i)})^ \top. \end {align} Se puede comprobar que $\C = \C_b + \C_w$ . El LDA busca ejes discriminantes que tengan la máxima varianza entre grupos y la mínima varianza dentro del grupo de la proyección. En concreto, el primer eje discriminante es el vector unitario $\newcommand{\w}{\mathbf w}\w$ maximizando $\w^\top \C_b \w / (\w^\top \C_w \w)$ y la primera $p$ ejes discriminantes apilados en una matriz $\newcommand{\W}{\mathbf W}\W$ debe maximizar el rastro $$\DeclareMathOperator{\tr}{tr} L_\mathrm{LDA}=\tr\left(\W^\top \C_b \W (\W^\top \C_w \W)^{-1}\right).$$
Suponiendo que $\C_w$ es de rango completo, la solución LDA $\W_\mathrm{LDA}$ es la matriz de vectores propios de $\C_w^{-1} \C_b$ (ordenados por los valores propios en orden decreciente).
Esta era la historia habitual. Ahora hagamos dos observaciones importantes.
En primer lugar, la matriz de dispersión dentro de la clase puede sustituirse por la matriz de dispersión total (en última instancia, porque la maximización de $b/w$ equivale a maximizar $b/(b+w)$ ), y de hecho, es fácil ver que $\C^{-1} \C_b$ tiene los mismos vectores propios.
En segundo lugar, la matriz de dispersión entre clases puede expresarse a través de la matriz de pertenencia a grupos definida anteriormente. En efecto, $\G^\top \X$ es la matriz de sumas de grupos. Para obtener la matriz de medias de grupo, debe multiplicarse por una matriz diagonal con $n_j$ en la diagonal; viene dada por $\G^\top \G$ . Por lo tanto, la matriz de medias de grupo es $(\G^\top \G)^{-1}\G^\top \X$ ( sapienti se dará cuenta de que se trata de una fórmula de regresión). Para obtener $\C_b$ debemos tomar su matriz de dispersión, ponderada por la misma matriz diagonal, obteniendo $$\C_b = \X^\top \G (\G^\top \G)^{-1}\G^\top \X.$$ Si todos los $n_j$ son idénticos e iguales a $m$ ("conjunto de datos equilibrado"), entonces esta expresión se simplifica a $\X^\top \G \G^\top \X / m$ .
Podemos definir la matriz indicadora normalizada $\newcommand{\tG}{\widetilde {\mathbf G}}\tG$ como si tuviera $1/\sqrt{n_j}$ donde $\G$ tiene $1$ . Entonces, para ambos conjuntos de datos, equilibrados y no equilibrados, la expresión es simplemente $\C_b = \X^\top \tG \tG^\top \X$ . Tenga en cuenta que $\tG$ es, hasta un factor constante, el blanqueado matriz de indicadores: $\tG = \G(\G^\top \G)^{-1/2}$ .
Regresión
Para simplificar, empezaremos con el caso de un conjunto de datos equilibrado.
Considere la regresión lineal de $\G$ en $\X$ . Encuentra $\newcommand{\B}{\mathbf B}\B$ minimizar $\| \G - \X \B\|^2$ . La regresión de rango reducido hace lo mismo bajo la restricción de que $\B$ debe ser del rango dado $p$ . Si es así, entonces $\B$ puede escribirse como $\newcommand{\D}{\mathbf D} \newcommand{\F}{\mathbf F} \B=\D\F^\top$ con ambos $\D$ y $\F$ teniendo $p$ columnas. Se puede demostrar que la solución de rango dos se puede obtener a partir de la solución de rango manteniendo la primera columna y añadiendo una columna más, etc.
Para establecer la conexión entre el LDA y la regresión lineal, demostraremos que $\D$ coincide con $\W_\mathrm{LDA}$ .
La prueba es sencilla. Para el caso de la $\D$ , óptimo $\F$ se puede encontrar a través de la regresión: $\F^\top = (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G$ . Introduciendo esto en la función de pérdida, obtenemos $$\| \G - \X \D (\D^\top \X^\top \X \D)^{-1} \D^\top \X^\top \G\|^2,$$ que puede escribirse como traza utilizando la identidad $\|\mathbf A\|^2=\mathrm{tr}(\mathbf A \mathbf A^\top)$ . Tras fáciles manipulaciones obtenemos que la regresión es equivalente a maximizar (!) el siguiente rastro de miedo: $$\tr\left(\D^\top \X^\top \G \G^\top \X \D (\D^\top \X^\top \X \D)^{-1}\right),$$ que en realidad no es otra cosa que $$\ldots = \tr\left(\D^\top \C_b \D (\D^\top \C \D)^{-1}\right)/m \sim L_\mathrm{LDA}.$$
Con esto termina la prueba. Para los conjuntos de datos no equilibrados tenemos que sustituir $\G$ con $\tG$ .
Del mismo modo, se puede demostrar que añadir la regularización de crestas a la regresión de rango reducido es equivalente al LDA regularizado.
Relación entre LDA, CCA y RRR
En su respuesta, @ttnphns hizo una conexión con el análisis de correlación canónica (CCA). De hecho, se puede demostrar que el LDA es equivalente al CCA entre $\X$ y $\G$ . Además, la CCA entre cualquier $\newcommand{\Y}{\mathbf Y}\Y$ y $\X$ puede escribirse como RRR prediciendo el blanqueo $\Y$ de $\X$ . El resto se desprende de esto.
Bibliografía
Es difícil decir a quién corresponde el mérito de lo presentado anteriormente.
Hay un documento de conferencia reciente de Cai et al. (2013) Sobre el equivalente de las regresiones de bajo rango y las regresiones basadas en el análisis discriminante lineal que presenta exactamente la misma prueba que la anterior, pero da la impresión de que han inventado este enfoque. Esto no es el caso. Torre escribió un tratamiento detallado de cómo la mayoría de los métodos lineales multivariantes comunes pueden verse como regresión de rango reducido, véase Un marco de mínimos cuadrados para el análisis de componentes 2009, y un capítulo posterior del libro Unificación de los métodos de análisis de componentes , 2013; presenta el mismo argumento pero tampoco da referencias. Este material también se trata en el libro de texto Técnicas estadísticas multivariantes modernas (2008) de Izenman, que introdujo la RRR en 1975.
La relación entre LDA y CCA se remonta aparentemente a Bartlett, 1938, Otros aspectos de la teoría de la regresión múltiple -- esa es la referencia que encuentro a menudo (pero que no he verificado). La relación entre CCA y RRR se describe en el Izenman, 1975, Regresión de rango reducido para el modelo lineal multivariante . Así que todas estas ideas han existido durante un tiempo.
7 votos
Nota para el lector: la pregunta es ambigua, puede entenderse como una pregunta sobre regresión logística o sobre regresión lineal . El OP parece haberse interesado por ambos aspectos (ver comentarios). La respuesta aceptada se refiere a la regresión lineal, pero otras respuestas se centran en la regresión logística.