Esto es con respecto a la varianza
OLS proporciona lo que se llama el Mejor estimador lineal insesgado (AZUL) . Eso significa que si se toma cualquier otro estimador insesgado, es seguro que tendrá una varianza mayor que la solución OLS. Entonces, ¿por qué deberíamos considerar algo más que eso?
Ahora el truco con la regularización, como el lazo o la cresta, es añadir algún sesgo a su vez para tratar de reducir la varianza. Porque cuando se estima el error de predicción, es un combinación de tres cosas : $$ \text{E}[(y-\hat{f}(x))^2]=\text{Bias}[\hat{f}(x))]^2 +\text{Var}[\hat{f}(x))]+\sigma^2 $$ La última parte es el error irreductible, así que no tenemos control sobre eso. Utilizando la solución OLS, el término de sesgo es cero. Pero puede ser que el segundo término sea grande. Podría ser una buena idea, ( si queremos buenas predicciones ), para añadir algún sesgo y, con suerte, reducir la varianza.
Entonces, ¿qué es esto $\text{Var}[\hat{f}(x))]$ ? Es la varianza introducida en las estimaciones de los parámetros de su modelo. El modelo lineal tiene la forma $$ \mathbf{y}=\mathbf{X}\beta + \epsilon,\qquad \epsilon\sim\mathcal{N}(0,\sigma^2I) $$ Para obtener la solución OLS resolvemos el problema de minimización $$ \arg \min_\beta ||\mathbf{y}-\mathbf{X}\beta||^2 $$ Esto proporciona la solución $$ \hat{\beta}_{\text{OLS}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} $$ El problema de minimización para la regresión de cresta es similar: $$ \arg \min_\beta ||\mathbf{y}-\mathbf{X}\beta||^2+\lambda||\beta||^2\qquad \lambda>0 $$ Ahora la solución se convierte en $$ \hat{\beta}_{\text{Ridge}} = (\mathbf{X}^T\mathbf{X}+\lambda I)^{-1}\mathbf{X}^T\mathbf{y} $$ Así que vamos a añadir esto $\lambda I$ (llamada cresta) en la diagonal de la matriz que invertimos. El efecto que esto tiene sobre la matriz $\mathbf{X}^T\mathbf{X}$ es que " tira de " el determinante de la matriz lejos de cero. Así, al invertirla, no se obtienen enormes valores propios. Pero eso lleva a otro hecho interesante, a saber, que la varianza de las estimaciones de los parámetros se reduce.
No estoy seguro de poder dar una respuesta más clara que ésta. Todo se reduce a la matriz de covarianza de los parámetros del modelo y a la magnitud de los valores de esa matriz de covarianza.
Tomé la regresión de cresta como ejemplo, porque es mucho más fácil de tratar. El lazo es mucho más difícil y hay investigación aún activa en curso sobre ese tema.
Estas diapositivas proporcionar algo más de información y este blog también tiene información relevante.
EDITAR: ¿Qué quiero decir con que al añadir la cresta el determinante es " tiró de ¿"de cero"?
Obsérvese que la matriz $\mathbf{X}^T\mathbf{X}$ es una matriz simétrica definida positiva. Nótese que todas las matrices simétricas con valores reales tienen valores propios reales. Además, como es definida positiva, los valores propios son todos mayores que cero.
Bien, ¿cómo calculamos los valores propios? Resolvemos la ecuación característica: $$ \text{det}(\mathbf{X}^T\mathbf{X}-tI)=0 $$ Se trata de un polinomio en $t$ y, como ya se ha dicho, los valores propios son reales y positivos. Ahora echemos un vistazo a la ecuación de la matriz de cresta que necesitamos invertir: $$ \text{det}(\mathbf{X}^T\mathbf{X}+\lambda I-tI)=0 $$ Podemos cambiar esto un poco y ver: $$ \text{det}(\mathbf{X}^T\mathbf{X}-(t-\lambda)I)=0 $$ Así que podemos resolver esto para $(t-\lambda)$ y obtener los mismos valores propios que para el primer problema. Supongamos que un valor propio es $t_i$ . Así que el valor propio para el problema de la cresta se convierte en $t_i+\lambda$ . Se desplaza por $\lambda$ . Esto ocurre con todos los valores propios, por lo que todos se alejan de cero.
Aquí hay un código R para ilustrar esto:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
Lo que da los resultados:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
Así que todos los valores propios se desplazan hacia arriba exactamente en 3.
También se puede probar esto en general utilizando el Teorema del círculo de Gershgorin . Allí los centros de los círculos que contienen los valores propios son los elementos diagonales. Siempre se puede añadir "lo suficiente" al elemento diagonal para que todos los círculos estén en el semiplano real positivo. Ese resultado es más general y no es necesario para esto.
1 votos
Posible duplicado de ¿Por qué el Lazo permite la selección de variables?
1 votos
Vale, la parte de la varianza en negrita no está duplicada, al menos de esta pregunta; así que quizás se podría editar esta pregunta para centrarse en eso.
0 votos
Esto está bien explicado en la figura 3.11 de web.stanford.edu/~hastie/local.ftp/Springer/OLD/
0 votos
@fcop he leído el libro pero no entiendo bien las matemáticas
0 votos
Pero para entender la imagen no se necesitan las matemáticas ?