24 votos

El límite de la "unidad de la varianza en la" cresta estimador de regresión al $\lambda\to\infty$

Considere la posibilidad de regresión ridge con una restricción adicional que requieren que el $\hat{\mathbf y}$ tiene unidad de suma de cuadrados (lo que es equivalente, la unidad de la varianza); si es necesario, se puede asumir que el $\mathbf y$ tiene unidad de la suma de los cuadrados así:

$$\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1.$$

¿Cuál es el límite de $\hat{\boldsymbol\beta}_\lambda^*$ al $\lambda\to\infty$?


Aquí son algunas de las declaraciones que creo que son verdaderas:

  1. Al $\lambda=0$, hay una buena solución explícita: tomar el estimador OLS $\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ y normalizar para satisfacer la restricción (uno puede ver esto mediante la adición de un multiplicador de Lagrange y diferenciar): $$\hat{\boldsymbol\beta}_0^* = \hat{\boldsymbol\beta}_0 \big/ \|\mathbf X\hat{\boldsymbol\beta}_0\|.$$

  2. En general, la solución es $$\hat{\boldsymbol\beta}_\lambda^*=\big((1+\mu)\mathbf X^\top \mathbf X + \lambda \mathbf I\big)^{-1}\mathbf X^\top \mathbf y\:\:\text{with $\mu$ needed to satisfy the constraint}.$$I don't see a closed form solution when $\lambda >0$. It seems that the solution is equivalent to the usual RR estimator with some $\lambda^*$ normalized to satisfy the constraint, but I don't see a closed formula for $\lambda^*$.

  3. Al $\lambda\to \infty$, el habitual RR estimador de $$\hat{\boldsymbol\beta}_\lambda=(\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1}\mathbf X^\top \mathbf y$$ obviously converges to zero, but its direction $\hat{\boldsymbol\beta}_\lambda \/ \|\hat{\boldsymbol\beta}_\lambda\|$ converges to the direction of $\mathbf X^\top \mathbf y$, un.k.una. la primera de mínimos cuadrados parciales (PLS) de los componentes.

Consolidados (2) y (3) me hacen pensar que quizás $\hat{\boldsymbol\beta}_\lambda^*$ también converge a la adecuadamente normalizado $\mathbf X^\top \mathbf y$, pero no estoy seguro de si esto es correcto y no he conseguido convencer a mí mismo de cualquier manera.

20voto

user164061 Puntos 281

Una interpretación geométrica

El estimador se describe en la pregunta es el multiplicador de Lagrange equivalente del siguiente problema de optimización:

$$\text{minimize $f(\beta)$ subject to $g(\beta) \leq t$ and $h(\beta) = 1$ } $$

$$\begin{align} f(\beta) &= \lVert y-X\beta \lVert^2 \\ g(\beta) &= \lVert \beta \lVert^2\\ h(\beta) &= \lVert X\beta \lVert^2 \end{align}$$

el cual puede ser visto, geométricamente, como la búsqueda de la menor del elipsoide $f(\beta)=\text{RSS }$ que toca a la intersección de la esfera con $g(\beta) = t$ y el elipsoide $h(\beta)=1$


Comparación con el estándar de la regresión ridge view

En términos de un geométricas ver esto cambia el antiguo punto de vista (para el estándar de la regresión ridge) del punto donde un esferoide (errores) y la esfera ($\|\beta\|^2=t$) toque. En una nueva vista en la que buscamos el punto donde el esferoide (errores) toca a una curva (norma de la beta limitada por $\|X\beta\|^2=1$). La esfera (de color azul en la imagen de la izquierda) cambios en una dimensión inferior de la figura, debido a la intersección con la a $\|X\beta\|=1$ restricción.

En el caso de dos dimensiones, esto es fácil de ver.

geometric view

Cuando nos ajustar el parámetro de $t$, entonces podemos cambiar la longitud relativa de la azul/rojo esferas o el tamaño relativo de la $f(\beta)$ $g(\beta)$ (En la teoría de los multiplicadores de Lagrange no es probablemente una buena manera formal y describe exactamente que esto significa que para cada una de las $t$ como función de $\lambda$, o invertido, es una función monótona. Pero me imagino que se puede ver intuitivamente que la suma de los cuadrados de los residuos sólo aumenta cuando se disminuye $||\beta||$.)

La solución de $\beta_\lambda$ $\lambda=0$ es como se argumentó en una línea entre 0 y $\beta_{LS}$

La solución de $\beta_\lambda$ $\lambda \to \infty$ es (de hecho, como has comentado) en las cargas de la primera componente principal. Este es el punto donde $\lVert \beta \rVert^2$ es el más pequeño de $\lVert \beta X \rVert^2 = 1$. Es el punto donde el círculo de $\lVert \beta \rVert^2=t$ toca la elipse $|X\beta|=1$ en un solo punto.

En este 2-d de la vista de los bordes de la intersección de la esfera con $\lVert \beta \rVert^2 =t$ y esferoide $\lVert \beta X \rVert^2 = 1$ son los puntos. En múltiples dimensiones, estas serán las curvas

(Me imaginaba que estos curvas sería elipses, pero son más complicadas. Usted podría imaginarse que el elipsoide $\lVert X \beta \rVert^2 = 1$ está atravesado por el balón $\lVert \beta \rVert^2 \leq t$ como algún tipo de elipsoide truncado pero con bordes que no son una simple elipses)


Respecto al límite de $\lambda \to \infty$

En el primero (las ediciones anteriores) me escribió que habrá algunas limitantes $\lambda_{lim}$ por encima de la cual todas las soluciones son de la misma (y que residen en el punto de $\beta^*_\infty$). Pero esto no es el caso

Cuenta la optimización de como LARS o algoritmo de gradiente de la pendiente. Si para cualquier punto de $\beta$ hay una dirección en la que podemos cambiar el $\beta$ de manera tal que el término de penalización $|\beta|^2$ aumentan menos que el SSR plazo $|y-X\beta|^2$ disminuye, entonces usted no está en un mínimo.

  • En la normal de regresión ridge tiene una pendiente cero (en todas direcciones) por $|\beta|^2$ en el punto de $\beta=0$. Así que por todo lo finito $\lambda$ la solución puede no ser $\beta = 0$ (desde un infinitesimal paso puede hacerse para reducir la suma de los cuadrados de los residuos, sin aumentar el pena).
  • Para LASSO este es no es el mismo ya que: la pena es de $\lvert \beta \rvert_1$ (por lo que no es cuadrática con pendiente cero). Debido a que el LAZO tendrá algún valor limitante $\lambda_{lim}$ por encima de la cual todas las soluciones son cero debido a que el término de penalización (multiplicado por $\lambda$) aumentará más que la suma de cuadrados residual disminuye.
  • Para la limitación de ridge de obtener el mismo como la regular regresión ridge. Si cambia el $\beta$ a partir de la $\beta^*_\infty$, luego de que este cambio será perpendicular a $\beta$ ($\beta^*_\infty$ es perpendicular a la superficie de la elipse $|X\beta|=1$) y $\beta$ puede ser cambiado por un infinitesimal paso sin cambiar el término de penalización, pero la disminución de la suma de los cuadrados de los residuos. Por lo tanto para cualquier finito $\lambda$ el punto de $\beta^*_\infty$ no puede ser la solución.

Más notas relacionadas con el límite de $\lambda \to \infty$

La costumbre regresión ridge límite para $\lambda$ hasta el infinito corresponde a un punto diferente en la limitación de regresión ridge. Este 'viejo' límite corresponde al punto donde la $\mu$ es igual a -1. Entonces la derivada de la función de Lagrange en la normalizado problema

$$2 (1+\mu) X^{T}X \beta + 2 X^T y + 2 \lambda \beta$$ corresponde a una solución por la derivada de la función de Lagrange en el problema estándar

$2$X^{T}X \beta^\prime + 2 X^T y + 2 \frac{\lambda}{(1+\mu)} \beta^\prime \qquad \text{con $\beta^\prime = (1+\mu)\beta$}$$

13voto

zowens Puntos 1417

Esta es una expresión algebraica contraparte @Martijn hermoso geométricas respuesta.

Primero de todos, el límite de $$\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1$$ when $\lambda\to\infty$ is very simple to obtain: in the limit, the first term in the loss function becomes negligible and can thus be disregarded. The optimization problem becomes $$\lim_{\lambda\to\infty}\hat{\boldsymbol\beta}_\lambda^* = \hat{\boldsymbol\beta}_\infty^* = \operatorname*{arg\,min}_{\|\mathbf X \boldsymbol\beta\|^2=1}\|\boldsymbol\beta\|^2 \sim \operatorname*{arg\,max}_{\| \boldsymbol\beta\|^2=1}\|\mathbf X\boldsymbol\beta\|^2,$$ which is the first principal component of $\mathbf X$ (escala adecuada). Esto responde a la pregunta.


Consideremos ahora la solución para cualquier valor de $\lambda$ al que me refería en el punto #2 de mi pregunta. La adición a la pérdida de la función del multiplicador de Lagrange $\mu(\|\mathbf X\boldsymbol\beta\|^2-1)$ y la diferenciación, obtenemos

$$\hat{\boldsymbol\beta}_\lambda^*=\big((1+\mu)\mathbf X^\top \mathbf X + \lambda \mathbf I\big)^{-1}\mathbf X^\top \mathbf y\:\:\text{with $\mu$ needed to satisfy the constraint}.$$

¿Cómo funciona esta solución se comportan al $\lambda$ crece desde cero hasta el infinito?

  • Al $\lambda=0$, obtenemos una versión a escala de la OLS solución: $$\hat{\boldsymbol\beta}_0^* \sim \hat{\boldsymbol\beta}_0.$$

  • Por la positiva, pero para valores pequeños de a $\lambda$, la solución es una versión a escala de algunos estimador ridge: $$\hat{\boldsymbol\beta}_\lambda^* \sim \hat{\boldsymbol\beta}_{\lambda^*}.$$

  • Al $\lambda=\|\mathbf X\mathbf X^\top \mathbf y\|$, el valor de $(1+\mu)$ necesario para satisfacer la restricción es $0$. Esto significa que la solución es una versión a escala de la primera componente PLS (lo que significa que $\lambda^*$ de la correspondiente estimador ridge $\infty$): $$\hat{\boldsymbol\beta}_{\|\mathbf X\mathbf X^\top \mathbf y\|}^* \sim \mathbf X^\top \mathbf y.$$

  • Al $\lambda$ se convierte en más que eso, la necesaria $(1+\mu)$ plazo se convierte en negativo. A partir de ahora, la solución es una versión a escala de un pseudo-estimador ridge con negativo parámetro de regularización (negativo ridge). En términos de las direcciones, ahora estamos pasado cresta de una regresión infinita de la lambda.

  • Al $\lambda\to\infty$, el plazo $\big((1+\mu)\mathbf X^\top \mathbf X + \lambda \mathbf I\big)^{-1}$ iría a cero (o divergen hasta el infinito) a menos $\mu = -\lambda/ s^2_\mathrm{max} + \alpha$ donde $s_\mathrm{max}$ es el mayor valor singular de a $\mathbf X=\mathbf{USV}^\top$. Esto hará $\hat{\boldsymbol\beta}_\lambda^*$ finito y proporcionadas para el primer eje principal $\mathbf V_1$. Necesitamos establecer $\mu = -\lambda/ s^2_\mathrm{max} + \mathbf U_1^\top \mathbf y -1$ a satisfacer la restricción. Por lo tanto, obtenemos que $$\hat{\boldsymbol\beta}_\infty^* \sim \mathbf V_1.$$


En general, vemos que esta restringido problema de minimización comprende la unidad de la varianza en las versiones de OLS, RR, PLS, y la PCA en el siguiente espectro:

$$\boxed{\text{OLS} \to \text{RR} \to \text{PLS} \to \text{negative RR} \to \text{PCA}}$$

Este parece ser el equivalente a un oscuro (?) quimiometría marco llamado "continuum de regresión" (ver https://scholar.google.de/scholar?q="continuum+de regresión", en particular, de Piedra & Brooks, 1990, Sundberg 1993, Björkström & Sundberg 1999, etc.) que permite que el mismo unificación mediante la maximización de una ad hoc criterio $$\mathcal T = \operatorname{corr}^2(\mathbf y, \mathbf X \boldsymbol\beta)\cdot \operatorname{Var}^\gamma(\mathbf X\boldsymbol\beta) \;\;\text{s.t.}\;\;\|\boldsymbol\beta\|=1.$$ This obviously yields scaled OLS when $\gamma=0$, PLS when $\gamma=1$, PCA when $\gamma\to\infty$, and can be shown to yield scaled RR for $0<\gamma<1$ and scaled negative RR for $1<\gamma<\infty$, ver Sundberg de 1993.

A pesar de tener un poco de experiencia con RR/PLS/PCA/etc, tengo que admitir que nunca he escuchado acerca de la "continuidad de regresión" antes. También debo decir que no me gusta este término.


Un esquema que hice basado en el @Martijn uno:

Unit-variance ridge regression

Actualización: Figura actualizado con el negativo de la cresta de la ruta, muchas gracias a @Martijn para sugerir cómo debería ser.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X