7 votos

Regresión de la cresta: el aumento de$\lambda$ conduce a una disminución de la flexibilidad

En Introducción a la Estadística de Aprendizaje, en la parte en la cresta de la regresión se explicó, los autores dicen que

Como $\lambda$ aumenta la flexibilidad de la cresta de regresión de ajuste disminuye, dando lugar a disminución de la varianza, pero el aumento de sesgo.

Aquí está mi opinión sobre lo que demuestra esta línea:
En la cresta de regresión que tenemos para minimizar la suma:$$RSS+\lambda\sum_{j=0}^n\beta_j\\=\sum_{i=1}^n(y_i-\beta_0-\sum_{j=1}^p\beta_jx_{ij})^2+\lambda\sum_{j=1}^p\beta_j^2$$
Aquí, podemos ver que un aumento general de la $\beta$ vector disminuirá $RSS$ e incrementar el otro término. Así, con el fin de minimizar la duración, una especie de equilibrio entre la $RSS$ plazo y el $\lambda\sum_{j=0}^p\beta_j^2$ plazo. Deje que su suma se $S$.
Ahora, si queremos aumentar el$\lambda$$1$, a continuación, utilizando el valor anterior de la $\beta$ vector, $\lambda\sum_{j=1}^p\beta_j^2$ aumentará, mientras que el $RSS$ seguirá siendo la misma. Por lo tanto $S$ aumentará. Ahora, para alcanzar otro equilibrio, podemos ver que la disminución de los coeficientes de $\beta_j$ va a restaurar el equilibrio.$^{[1]}$

Por lo tanto, como una tendencia general, podemos decir que si se aumenta el valor de $\lambda$, entonces la magnitud de los coeficientes disminuye.

Ahora, si los coeficientes de los factores predictivos de disminuir, entonces su valor en el modelo disminuye. Es decir, su efecto disminuye. Y por lo tanto la flexibilidad del modelo debe disminuir.


Esta prueba parece atractiva, pero tengo la corazonada de que hay algunas lagunas de aquí y de allá. Si es correcto, bueno. Pero si no lo es me gustaría saber las razones por donde esta la prueba falla, y obviamente, la versión correcta de la misma.


$^{[1]}$: Puede adjuntar una explicación plausible sobre este punto, si es necesario.

8voto

zoldsegzizi Puntos 1

Esto se puede ver más fácilmente a través de la dualidad de Lagrange: existen algunos$C$ #% para que$$\arg\min_{\beta \in \mathbb{R}^p} RSS + \lambda \sum_{i=0}^p \beta_i^2 = \arg\min_{\beta\in\mathbb{R}^p \, : \, \|\beta\|_2^2 \leq C} RSS.$$ Further, we know that larger $ \ lambda$ corresponds to smaller $ C$. Therefore, increasing the tuning parameter $ \ lambda$ further constrains the $ \ ell_2 $ norma de los coeficientes, lo que lleva a una menor flexibilidad.

7voto

jldugger Puntos 7490

Vamos a pasar por alto el término de penalización por un momento, mientras se explora la sensibilidad de la solución a los cambios en una sola observación. Esto tiene implicaciones para todos lineal de mínimos cuadrados de los modelos, no sólo de Ridge de la regresión.

La notación

Para simplificar la notación, vamos a $X$ ser el modelo de la matriz, incluyendo una columna de valores constantes (y por tanto, habiendo $p+1$ columnas indizadas de $0$ a través de $p$), deje $y$ ser la respuesta $n$-vector, y deje $\beta=(\beta_0, \beta_1, \ldots, \beta_p)$ $p+1$- vector de coeficientes. Escribir $\mathbf{x}_i = (x_{i0}, x_{i1}, \ldots, x_{ip})$ para la observación $i$. El unpenalized objetivo es el (al cuadrado) $L_2$ norma de la diferencia,

$$RSS(\beta)=||y - X\beta||^2 = \sum_{i=1}^n (y_i - \mathbf{x}_i\beta)^2.\tag{1}$$

Sin pérdida de generalidad, el orden de las observaciones, por lo que la persona en cuestión es la última. Deje $k$ el índice de cualquier una de las variables ($0 \le k \le p$).

Análisis

El objetivo es exponer la simplicidad fundamental de esta situación, centrándose en la manera que la suma de los cuadrados de los $RSS$ depende de $x_{nk}$ $\beta_k$--no importa nada más. Para este fin, split $RSS$ en las aportaciones de la primera $n-1$ observaciones y por último:

$$RSS(\beta) = (y_n - \mathbf{x}_n\beta)^2 + \sum_{i=1}^{n-1} (y_i - \mathbf{x}_i\beta)^2.$$

Ambos términos son funciones cuadráticas de $\beta_k$. Teniendo en cuenta todos los otros $\beta_j,$ $j\ne k$, como constantes, por el momento, esto significa que el objetivo puede ser escrita en la forma

$$RSS(\beta_k) = (x_{nk}^2 \beta_k^2 + E\beta_kx_{nk} + F) + (A^2\beta_k^2 + B\beta_k + C).$$

Las nuevas cantidades $A\cdots F$ no dependen $\beta_k$ o $x_{nk}$. La combinación de los términos y completando el cuadrado da algo en la forma

$$RSS(\beta_k) = \left(\beta_k\sqrt{x_{nk}^2 + A^2} + \frac{Ex_{nk}+B}{2\sqrt{x_{nk}^2+A^2}} \right)^2 + G - \frac{(Ex_{nk}+B)^2}{4(x_{nk}^2+A^2)}\tag{2}$$

donde la cantidad de $G$ no depende de $x_{nk}$ o $\beta_k$.

La estimación de la sensibilidad

Podemos fácilmente calcular los tamaños de los coeficientes en $(2)$ al $|x_{nk}|$ crece grande en comparación a $|A|$. Cuando ese es el caso,

$$RSS(\beta_k) \approx \left(\beta_k x_{nk} + E/2\right)^2 + G-E^2/4.$$

Esto hace que sea fácil de ver lo que el cambio de $|x_{nk}|$ debe hacer para el óptimo $\hat\beta_k$. Por lo suficientemente grande $|x_{nk}|$, $\beta_k$ será inversamente proporcional a $x_{nk}$.

De hecho hemos aprendido, y comprobado, mucho más de lo que pidió, porque la Cresta de regresión puede ser formulado como un modelo de $(1)$. Específicamente, para el original $n$ observaciones que se adhieren a $p+1$ falso observaciones de la forma $\mathbf{x}_{n+i} = (0,0,\ldots, 0,1,0,\ldots,0)$ y luego se multiplica por la pena de parámetro $\lambda$. El análisis anterior muestra que para $\lambda$ suficientemente grande (y "suficientemente" puede ser calculado en términos de $|A|$, la cual es una función de los datos reales), cada una de las $\hat\beta_k$ será de aproximadamente inversamente proporcional a $\lambda$.


Un análisis que requiere de algunos de los más sofisticados de los resultados de Álgebra Lineal aparece en La prueba de reducir el uso de los coeficientes de regresión ridge a través de la "descomposición espectral". Agrega una visión: los coeficientes en la asintótico de las relaciones de $\hat\beta_k \sim 1/\lambda$ será el recíproco distinto de cero valores singulares de a $X$.

1voto

rinspy Puntos 106

Aquí, podemos ver que un aumento general en el vector β disminuirá RSS y aumentará el otro término.

  • Eso no es estrictamente cierto. Por ejemplo, verifique qué sucede con su$RSS$ si$p$ es$1$ y$y=0$ para todos los puntos$n$ a medida que aumenta$\beta$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X