1. ¿Qué es la regresión de rango reducido (RRR)?
Consideremos la regresión lineal múltiple multivariante, es decir, la regresión con $p$ variables independientes y $q$ variables dependientes. Sea $\mathbf X$ y $\mathbf Y$ sea un predictor centrado ( $n \times p$ ) y la respuesta ( $n\times q$ ). Entonces, la regresión por mínimos cuadrados ordinarios (OLS) puede formularse como la minimización de la siguiente función de coste:
$$L=\|\mathbf Y-\mathbf X\mathbf B\|^2,$$
donde $\mathbf B$ es un $p\times q$ matriz de pesos de regresión. Su solución viene dada por $$\hat{\mathbf B}_\mathrm{OLS}=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf Y,$$ y es fácil ver que es equivalente a hacer $q$ regresiones OLS separadas, una para cada variable dependiente.
La regresión de rango reducido introduce una restricción de rango en $\mathbf B$ , a saber $L$ debe minimizarse con $\operatorname{rank}(\mathbf B)\le r$ , donde $r$ es el rango máximo permitido de $\mathbf B$ .
2. ¿Cómo se obtiene la solución RRR?
Resulta que la RRR se puede plantear como un problema de vectores propios. De hecho, utilizando el hecho de que OLS es esencialmente una proyección ortogonal en el espacio de columnas de $\mathbf X$ podemos reescribir $L$ como $$L=\|\mathbf Y-\mathbf X\hat{\mathbf B}_\mathrm{OLS}\|^2+\|\mathbf X\hat{\mathbf B}_\mathrm{OLS}-\mathbf X\mathbf B\|^2.$$ El primer término no depende de $\mathbf B$ y el segundo término puede minimizarse mediante SVD/PCA de los valores ajustados $\hat{\mathbf Y}=\mathbf X\hat{\mathbf B}_\mathrm{OLS}$ .
En concreto, si $\mathbf U_r$ son los primeros $r$ ejes principales de $\hat{\mathbf Y}$ entonces $$\hat{\mathbf B}_\mathrm{RRR}=\hat{\mathbf B}_\mathrm{OLS}\mathbf U_r\mathbf U_r^\top.$$
3. ¿Para qué sirve la RRR?
Puede haber dos razones para utilizar la RRR.
En primer lugar, se puede utilizar con fines de regularización. Al igual que la regresión de cresta (RR), el lazo, etc., la RRR introduce una penalización de "contracción" en $\mathbf B$ . El rango óptimo $r$ se puede encontrar a través de la validación cruzada. En mi experiencia, RRR supera fácilmente a OLS pero tiende a perder frente a RR. Sin embargo, RRR+RR puede funcionar (ligeramente) mejor que RR sola.
En segundo lugar, se puede utilizar como método de reducción de la dimensionalidad/exploración de datos. Si tenemos un grupo de variables predictoras y un grupo de variables dependientes, entonces la RRR construirá "factores latentes" en el espacio de los predictores que hacen el mejor trabajo para explicar la varianza de las VD. A continuación, se puede intentar interpretar estos factores latentes, trazarlos, etc. Por lo que sé, esto se hace habitualmente en ecología, donde la RRR se conoce como análisis de redundancia y es un ejemplo de lo que llaman métodos de ordenación ( ver la respuesta de @GavinSimpson aquí ).
4. Relación con otros métodos de reducción de la dimensionalidad
La RRR está estrechamente relacionada con otros métodos de reducción de la dimensionalidad, como el CCA y el PLS. Lo he tratado un poco en mi respuesta a ¿Qué relación existe entre los mínimos cuadrados parciales, la regresión de rango reducido y la regresión de componentes principales?
si $\mathbf X$ y $\mathbf Y$ son predictores centrados ( $n \times p$ ) y la respuesta ( $n\times q$ ) y si buscamos el primer par de ejes, $\mathbf w \in \mathbb R^p$ para $\mathbf X$ y $\mathbf v \in \mathbb R^q$ para $\mathbf Y$ entonces estos métodos maximizan las siguientes cantidades:
\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}) \\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}) \\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv})\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}) \end{align}
Consulte allí para obtener más detalles.
Ver Torre, 2009, Un marco de mínimos cuadrados para el análisis de componentes para un tratamiento detallado de cómo la mayoría de los métodos lineales multivariantes comunes (por ejemplo, PCA, CCA, LDA, -- ¡pero no PLS!) pueden verse como RRR.
5. ¿Por qué esta sección de Hastie et al. es tan confusa?
Hastie et al. utilizan el término RRR para referirse a algo ligeramente diferente. En lugar de utilizar la función de pérdida $$L=\|\mathbf Y-\mathbf X \mathbf B\|^2,$$ utilizan $$L=\|(\mathbf Y-\mathbf X \mathbf B)(\mathbf Y^\top \mathbf Y)^{-1/2}\|^2,$$ como puede verse en su fórmula 3.68. Esto introduce un $\mathbf Y$ -El factor de blanqueo en la función de pérdida, esencialmente blanqueando las variables dependientes. Si se observa la comparación entre CCA y RRR anterior, se observará que si $\mathbf Y$ se blanquea, entonces la diferencia desaparece. Así que lo que Hastie et al. llaman RRR es en realidad CCA disfrazado (y de hecho, véase su 3.69).
Nada de eso se explica adecuadamente en esta sección, de ahí la confusión.
Véase mi respuesta a Tutorial amigable o introducción a la regresión de rango reducido para una lectura más profunda.