Loading [MathJax]/extensions/TeX/boldsymbol.js

10 votos

Explicación lúcida de la "estabilidad numérica de la inversión de matriz" en la regresión de cresta y su papel en la reducción del sobreajuste

Entiendo que podemos emplear a la regularización en un mínimo de cuadrados de regresión problema como

\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right]

y que este problema tiene una forma cerrada de solución como:

\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}.

Vemos que en la 2ª ecuación, la regularización es simplemente la adición de \lambda a la diagonal de \boldsymbol{X}^T\boldsymbol{X}, lo que se hace para mejorar la estabilidad numérica de la inversión de matrices.

Mi actual 'crudo' comprensión numérica, la estabilidad es que si una función se convierte en más " numéricamente estable, a continuación, su salida será menos afectada significativamente por el ruido en sus entradas. Estoy teniendo dificultades relacionadas con este concepto de la mejora de la estabilidad numérica de la imagen más grande, de cómo se evita o reduce el problema de sobreajuste.

He intentado buscar en la Wikipedia y de algunos otros sitios web de las universidades, pero ellos no van a lo profundo de explicar por qué esto es así.

2voto

Sosaa Puntos 1

En el modelo lineal Y=X\beta + \epsilon, suponiendo que los errores no correlacionados con media cero y X completo de la columna de rango, el estimador de mínimos cuadrados (X^TX)^{-1}X^TY es un imparcial estimador del parámetro de \beta. Sin embargo, este estimador puede tener alta varianza. Por ejemplo, cuando dos de las columnas de a X están altamente correlacionados.

La pena de parámetro \lambda \hat{w} un estimador sesgado de \beta, pero disminuye su varianza. También, \hat{w} es la parte posterior de la expectativa de \beta en un Bayesiano de regresión con un N(0,\frac{1}{\lambda}I)\beta. En ese sentido, se incluyen algunos de la información en el análisis que dice que los componentes de \beta no debería estar demasiado lejos de cero. De nuevo, esto nos lleva a una visión sesgada cálculo del punto de \beta pero reduce la varianza de la estimación.

En un entorno en donde los X grandes dimensiones, decir N \approx p, el de los mínimos cuadrados el ajuste se corresponde con los datos casi a la perfección. Aunque imparcial, esta estimación será muy sensible a las fluctuaciones en los datos debido a que en altas dimensiones, habrá muchos puntos con alto apalancamiento. En tales situaciones, el signo de algunos de los componentes de \hat{\beta} puede determinarse mediante una única observación. El término de penalización tiene el efecto de reducir estas estimaciones a cero, lo que puede reducir el MSE del estimador, por la reducción de la varianza.

Edit: En mi primera respuesta que me proporcione un vínculo a un papel relevante y en mi prisa me lo quitaron. Aquí está: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X