36 votos

¿En qué consiste la "regresión de rango reducido"?

He estado leyendo Los elementos del aprendizaje estadístico y no he podido entender de qué trata la sección 3.7 "Reducción y selección de resultados múltiples". Habla de RRR (regresión de rango reducido), y sólo puedo entender que la premisa se refiere a un modelo lineal multivariante generalizado en el que se desconocen los coeficientes (y se va a estimar) pero se sabe que no tiene rango completo. Eso es lo único que entiendo.

El resto de las matemáticas se me escapan. Ni siquiera ayuda que los autores digan "se puede demostrar" y dejen las cosas como un ejercicio.

¿Puede alguien ayudar a explicar lo que está sucediendo aquí, intuitivamente? ¿Se supone que en este capítulo se discuten nuevos métodos? o ¿qué?

74voto

zowens Puntos 1417

1. ¿Qué es la regresión de rango reducido (RRR)?

Consideremos la regresión lineal múltiple multivariante, es decir, la regresión con $p$ variables independientes y $q$ variables dependientes. Sea $\mathbf X$ y $\mathbf Y$ sea un predictor centrado ( $n \times p$ ) y la respuesta ( $n\times q$ ). Entonces, la regresión por mínimos cuadrados ordinarios (OLS) puede formularse como la minimización de la siguiente función de coste:

$$L=\|\mathbf Y-\mathbf X\mathbf B\|^2,$$

donde $\mathbf B$ es un $p\times q$ matriz de pesos de regresión. Su solución viene dada por $$\hat{\mathbf B}_\mathrm{OLS}=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf Y,$$ y es fácil ver que es equivalente a hacer $q$ regresiones OLS separadas, una para cada variable dependiente.

La regresión de rango reducido introduce una restricción de rango en $\mathbf B$ , a saber $L$ debe minimizarse con $\operatorname{rank}(\mathbf B)\le r$ , donde $r$ es el rango máximo permitido de $\mathbf B$ .

2. ¿Cómo se obtiene la solución RRR?

Resulta que la RRR se puede plantear como un problema de vectores propios. De hecho, utilizando el hecho de que OLS es esencialmente una proyección ortogonal en el espacio de columnas de $\mathbf X$ podemos reescribir $L$ como $$L=\|\mathbf Y-\mathbf X\hat{\mathbf B}_\mathrm{OLS}\|^2+\|\mathbf X\hat{\mathbf B}_\mathrm{OLS}-\mathbf X\mathbf B\|^2.$$ El primer término no depende de $\mathbf B$ y el segundo término puede minimizarse mediante SVD/PCA de los valores ajustados $\hat{\mathbf Y}=\mathbf X\hat{\mathbf B}_\mathrm{OLS}$ .

En concreto, si $\mathbf U_r$ son los primeros $r$ ejes principales de $\hat{\mathbf Y}$ entonces $$\hat{\mathbf B}_\mathrm{RRR}=\hat{\mathbf B}_\mathrm{OLS}\mathbf U_r\mathbf U_r^\top.$$

3. ¿Para qué sirve la RRR?

Puede haber dos razones para utilizar la RRR.

En primer lugar, se puede utilizar con fines de regularización. Al igual que la regresión de cresta (RR), el lazo, etc., la RRR introduce una penalización de "contracción" en $\mathbf B$ . El rango óptimo $r$ se puede encontrar a través de la validación cruzada. En mi experiencia, RRR supera fácilmente a OLS pero tiende a perder frente a RR. Sin embargo, RRR+RR puede funcionar (ligeramente) mejor que RR sola.

En segundo lugar, se puede utilizar como método de reducción de la dimensionalidad/exploración de datos. Si tenemos un grupo de variables predictoras y un grupo de variables dependientes, entonces la RRR construirá "factores latentes" en el espacio de los predictores que hacen el mejor trabajo para explicar la varianza de las VD. A continuación, se puede intentar interpretar estos factores latentes, trazarlos, etc. Por lo que sé, esto se hace habitualmente en ecología, donde la RRR se conoce como análisis de redundancia y es un ejemplo de lo que llaman métodos de ordenación ( ver la respuesta de @GavinSimpson aquí ).

4. Relación con otros métodos de reducción de la dimensionalidad

La RRR está estrechamente relacionada con otros métodos de reducción de la dimensionalidad, como el CCA y el PLS. Lo he tratado un poco en mi respuesta a ¿Qué relación existe entre los mínimos cuadrados parciales, la regresión de rango reducido y la regresión de componentes principales?

si $\mathbf X$ y $\mathbf Y$ son predictores centrados ( $n \times p$ ) y la respuesta ( $n\times q$ ) y si buscamos el primer par de ejes, $\mathbf w \in \mathbb R^p$ para $\mathbf X$ y $\mathbf v \in \mathbb R^q$ para $\mathbf Y$ entonces estos métodos maximizan las siguientes cantidades:

\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}) \\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}) \\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv})\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}) \end{align}

Consulte allí para obtener más detalles.

Ver Torre, 2009, Un marco de mínimos cuadrados para el análisis de componentes para un tratamiento detallado de cómo la mayoría de los métodos lineales multivariantes comunes (por ejemplo, PCA, CCA, LDA, -- ¡pero no PLS!) pueden verse como RRR.

5. ¿Por qué esta sección de Hastie et al. es tan confusa?

Hastie et al. utilizan el término RRR para referirse a algo ligeramente diferente. En lugar de utilizar la función de pérdida $$L=\|\mathbf Y-\mathbf X \mathbf B\|^2,$$ utilizan $$L=\|(\mathbf Y-\mathbf X \mathbf B)(\mathbf Y^\top \mathbf Y)^{-1/2}\|^2,$$ como puede verse en su fórmula 3.68. Esto introduce un $\mathbf Y$ -El factor de blanqueo en la función de pérdida, esencialmente blanqueando las variables dependientes. Si se observa la comparación entre CCA y RRR anterior, se observará que si $\mathbf Y$ se blanquea, entonces la diferencia desaparece. Así que lo que Hastie et al. llaman RRR es en realidad CCA disfrazado (y de hecho, véase su 3.69).

Nada de eso se explica adecuadamente en esta sección, de ahí la confusión.


Véase mi respuesta a Tutorial amigable o introducción a la regresión de rango reducido para una lectura más profunda.

4voto

Iggy25 Puntos 20

La regresión de rango reducido es un modelo en el que no hay un único resultado Y, sino múltiples resultados Y. Por supuesto, se puede ajustar una regresión lineal multivariante separada para cada respuesta, pero esto parece ineficiente cuando la relación funcional entre los predictores y cada respuesta es claramente similar. Véase este ejercicio de kaggle para una situación en la que creo que esto es evidente.

https://www.kaggle.com/c/bike-sharing-demand/data

Existen varias técnicas relacionadas para abordar este problema que construyen "factores" o "componentes" a partir de las variables X que luego se utilizan para predecir las Y. Esta página de documentación de SAS me ayudó a aclarar las diferencias. La regresión de rango reducido parece tratar de extraer componentes que den cuenta al máximo de la variación entre las respuestas, en contraste con los mínimos cuadrados parciales que extraen componentes que dan cuenta al máximo de la variación entre las respuestas y los predictores.

https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X