32 votos

¿Por qué la regresión ridge no reduce algunos coeficientes a cero como el lazo?

Al explicar la regresión LASSO, se suele utilizar el diagrama de un diamante y un círculo. Se dice que, como la forma de la restricción en LASSO es un diamante, la solución de mínimos cuadrados obtenida puede tocar la esquina del diamante de forma que lleve a una contracción de alguna variable. Sin embargo, en la regresión de cresta, al ser un círculo, no suele tocar el eje. No he podido entender por qué no puede tocar el eje o tal vez tenga una probabilidad menor que LASSO de encoger ciertos parámetros. Además, ¿por qué LASSO y la cresta tienen una varianza menor que los mínimos cuadrados ordinarios? Lo anterior es lo que yo entiendo por cresta y LASSO y podría estar equivocado. ¿Puede alguien ayudarme a entender por qué estos dos métodos de regresión tienen menor varianza?

1 votos

1 votos

Vale, la parte de la varianza en negrita no está duplicada, al menos de esta pregunta; así que quizás se podría editar esta pregunta para centrarse en eso.

0 votos

Esto está bien explicado en la figura 3.11 de web.stanford.edu/~hastie/local.ftp/Springer/OLD/

36voto

Gumeo Puntos 1671

Esto es con respecto a la varianza

OLS proporciona lo que se llama el Mejor estimador lineal insesgado (AZUL) . Eso significa que si se toma cualquier otro estimador insesgado, es seguro que tendrá una varianza mayor que la solución OLS. Entonces, ¿por qué deberíamos considerar algo más que eso?

Ahora el truco con la regularización, como el lazo o la cresta, es añadir algún sesgo a su vez para tratar de reducir la varianza. Porque cuando se estima el error de predicción, es un combinación de tres cosas : $$ \text{E}[(y-\hat{f}(x))^2]=\text{Bias}[\hat{f}(x))]^2 +\text{Var}[\hat{f}(x))]+\sigma^2 $$ La última parte es el error irreductible, así que no tenemos control sobre eso. Utilizando la solución OLS, el término de sesgo es cero. Pero puede ser que el segundo término sea grande. Podría ser una buena idea, ( si queremos buenas predicciones ), para añadir algún sesgo y, con suerte, reducir la varianza.

Entonces, ¿qué es esto $\text{Var}[\hat{f}(x))]$ ? Es la varianza introducida en las estimaciones de los parámetros de su modelo. El modelo lineal tiene la forma $$ \mathbf{y}=\mathbf{X}\beta + \epsilon,\qquad \epsilon\sim\mathcal{N}(0,\sigma^2I) $$ Para obtener la solución OLS resolvemos el problema de minimización $$ \arg \min_\beta ||\mathbf{y}-\mathbf{X}\beta||^2 $$ Esto proporciona la solución $$ \hat{\beta}_{\text{OLS}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} $$ El problema de minimización para la regresión de cresta es similar: $$ \arg \min_\beta ||\mathbf{y}-\mathbf{X}\beta||^2+\lambda||\beta||^2\qquad \lambda>0 $$ Ahora la solución se convierte en $$ \hat{\beta}_{\text{Ridge}} = (\mathbf{X}^T\mathbf{X}+\lambda I)^{-1}\mathbf{X}^T\mathbf{y} $$ Así que vamos a añadir esto $\lambda I$ (llamada cresta) en la diagonal de la matriz que invertimos. El efecto que esto tiene sobre la matriz $\mathbf{X}^T\mathbf{X}$ es que " tira de " el determinante de la matriz lejos de cero. Así, al invertirla, no se obtienen enormes valores propios. Pero eso lleva a otro hecho interesante, a saber, que la varianza de las estimaciones de los parámetros se reduce.

No estoy seguro de poder dar una respuesta más clara que ésta. Todo se reduce a la matriz de covarianza de los parámetros del modelo y a la magnitud de los valores de esa matriz de covarianza.

Tomé la regresión de cresta como ejemplo, porque es mucho más fácil de tratar. El lazo es mucho más difícil y hay investigación aún activa en curso sobre ese tema.

Estas diapositivas proporcionar algo más de información y este blog también tiene información relevante.

EDITAR: ¿Qué quiero decir con que al añadir la cresta el determinante es " tiró de ¿"de cero"?

Obsérvese que la matriz $\mathbf{X}^T\mathbf{X}$ es una matriz simétrica definida positiva. Nótese que todas las matrices simétricas con valores reales tienen valores propios reales. Además, como es definida positiva, los valores propios son todos mayores que cero.

Bien, ¿cómo calculamos los valores propios? Resolvemos la ecuación característica: $$ \text{det}(\mathbf{X}^T\mathbf{X}-tI)=0 $$ Se trata de un polinomio en $t$ y, como ya se ha dicho, los valores propios son reales y positivos. Ahora echemos un vistazo a la ecuación de la matriz de cresta que necesitamos invertir: $$ \text{det}(\mathbf{X}^T\mathbf{X}+\lambda I-tI)=0 $$ Podemos cambiar esto un poco y ver: $$ \text{det}(\mathbf{X}^T\mathbf{X}-(t-\lambda)I)=0 $$ Así que podemos resolver esto para $(t-\lambda)$ y obtener los mismos valores propios que para el primer problema. Supongamos que un valor propio es $t_i$ . Así que el valor propio para el problema de la cresta se convierte en $t_i+\lambda$ . Se desplaza por $\lambda$ . Esto ocurre con todos los valores propios, por lo que todos se alejan de cero.

Aquí hay un código R para ilustrar esto:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

Lo que da los resultados:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

Así que todos los valores propios se desplazan hacia arriba exactamente en 3.

También se puede probar esto en general utilizando el Teorema del círculo de Gershgorin . Allí los centros de los círculos que contienen los valores propios son los elementos diagonales. Siempre se puede añadir "lo suficiente" al elemento diagonal para que todos los círculos estén en el semiplano real positivo. Ese resultado es más general y no es necesario para esto.

0 votos

¿Puedes explicar cómo se "aleja" el determinante de cero (matemáticamente)? Gracias

0 votos

@user2675516 He editado mi respuesta.

0 votos

"Eso significa que si se toma cualquier otro estimador insesgado, seguramente tendrá una varianza mayor que la solución OLS". ¿Te refieres a un sesgo mayor que el de MCO? Pensaba que OLS tiene el menor sesgo, así que cualquier otro tendría un sesgo mayor. Por favor, aclárelo

21voto

Jago Puntos 133

Regresión Ridge

$L_{2}=(y-x\beta)^2+\lambda\sum_{i=1}^{p}\beta_{i}^2$

Resolveremos esta ecuación sólo para una β por ahora y después se puede generalizar:

Así que, $(y-xβ)^2+λβ^2$ esta es nuestra ecuación para una β.

Nuestro objetivo es minimizar la ecuación anterior, para poder hacerlo, igualaremos esta a cero y tomaremos las derivadas respecto a $β$

$Y^2- 2xyβ+ x^2 β^2+ λβ^2=0$ --------Usando $(a-b)^2$ expansión

Derivadas parciales con respecto a

$-2xy+2x^2β+2βλ=0$

$2β (x^2+λ) = 2xy$

$β= 2xy/ 2(x^2 + λ)$

Finalmente

$β= xy/(x^2 + λ)$

Si se observa el denominador, se convertirá en cero sólo si $\lambda \rightarrow \infty$ (ver ISLR, pág. 215 ), ya que estamos añadiendo algún valor de $λ$ (es decir, el hiperparámetro). Y, por tanto, el valor de $β$ será lo más bajo posible, pero no llegará a ser cero.

Regresión LASSO:

$L_{1}=(y-x\beta)^2+\lambda\sum_{i=1}^{p}\left |\beta_{i} \right |$

Resolveremos esta ecuación sólo para una β por ahora y después se puede generalizar a más $β$ :

Así que, $(y-xβ)^2+λβ$ esta es nuestra ecuación para uno $β$ Aquí he considerado el valor +ve de $β$ .

Nuestro objetivo es minimizar la ecuación anterior, para poder hacerlo, igualaremos esta a cero y tomaremos las derivadas respecto a $β$

$Y^2- 2xyβ+ x^2 β^2+ λβ=0$ -------Usando $(a-b) ^2$ expansión

Derivadas parciales con respecto a

$-2xy+2x^2β+λ=0$

$2x^2β+λ= 2xy$

$2x^2β=2xy-λ$

Finalmente

$β= (2xy-λ)/ (2X^2)$

Si observas el numerador, se convertirá en cero, ya que estamos restando algún valor de $λ$ (es decir, el hiperparámetro). Y, por tanto, el valor de $β$ se pondrá a cero.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X