20 votos

¿Exactamente qué condiciones es capaz de proporcionar una mejora sobre la regresión de mínimos cuadrados ordinarios la regresión ridge?

Cresta de regresión de las estimaciones de los parámetros de $\boldsymbol \beta$ en un modelo lineal $\mathbf y = \mathbf X \boldsymbol \beta$ por $$\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y,$$ where $\lambda$ is a regularization parameter. It is well-known that it often performs better than the OLS regression (with $\lambda=0$) cuando hay una gran correlación predictores.

Un teorema de existencia para la regresión ridge dice que no siempre existe un parámetro $\lambda^* > 0$ de manera tal que la media de cuadrados de error de $\hat{\boldsymbol \beta}_\lambda$ es estrictamente menor que la media del cuadrado del error de la estimación OLS $\hat{\boldsymbol \beta}_\mathrm{OLS}=\hat{\boldsymbol \beta}_0$. En otras palabras, un valor óptimo de $\lambda$ es siempre distinto de cero. Esto aparentemente fue probada por primera vez en Hoerl y Kennard, 1970 y que se repite en muchas notas de la conferencia que puedo encontrar en línea (por ejemplo, aquí y aquí). Mi pregunta es acerca de las hipótesis de este teorema:

  1. Hay suposiciones acerca de la matriz de covarianza $\mathbf X^\top \mathbf X$?

  2. Hay suposiciones acerca de la dimensionalidad de $\mathbf X$?

En particular, es el teorema sigue siendo cierto si predictores son ortogonales (es decir, $\mathbf X^\top \mathbf X$ es la diagonal), o incluso si $\mathbf X^\top \mathbf X=\mathbf I$? Y es cierto, si sólo hay uno o dos predictores (es decir, un pronóstico y una intercepción)?

Si el teorema no hace ninguna de esas hipótesis y sigue siendo cierto incluso en estos casos, entonces, ¿por qué cresta de regresión generalmente se recomienda sólo en el caso de la correlación de los predictores, y nunca (?) recomendado para simple (es decir, no varios) de regresión?


Esto está relacionado con mi pregunta sobre vista Unificada de la contracción: ¿cuál es la relación (si la hay) entre Stein paradoja, la regresión ridge, y de efectos aleatorios en los modelos mixtos?, pero las respuestas no hay de aclarar este punto hasta ahora.

17voto

Andrew M Puntos 1141

La respuesta a ambas preguntas 1 y 2 no es, pero la atención es necesaria en la interpretación del teorema de existencia.

La varianza del Estimador Ridge

Deje $\hat{\beta^*}$ ser la cresta de la estimación bajo pena de $k$, y deje $\beta$ ser el verdadero parámetro para el modelo de $Y = X \beta + \epsilon$. Deje $\lambda_1, \dotsc, \lambda_p$ ser los autovalores de a $X^T X$.
De Hoerl Y Kennard ecuaciones 4.2-4.5, el riesgo (en términos de la esperada $L^2$ norma del error) es

$$ \begin{align*} E \left( \left[ \hat{\beta^*} - \beta \right]^T \left[ \hat{\beta^*} - \beta \right] \right)& = \sigma^2 \sum_{j=1}^p \lambda_j/ \left( \lambda_j +k \right)^2 + k^2 \beta^T \left( X^T X + k \mathbf{I}_p \right)^{-2} \beta \\ & = \gamma_1 (k) + \gamma_2(k) \\ & = R(k) \end{align*} $$ donde como lo que yo puedo decir, $\left( X^T X + k \mathbf{I}_p \right)^{-2} = \left( X^T X + k \mathbf{I}_p \right)^{-1} \left( X^T X + k \mathbf{I}_p \right)^{-1}.$ expresa que $\gamma_1$ tiene la interpretación de la varianza del producto interior de $\hat{\beta^*} - \beta$, mientras que $\gamma_2$ es el producto interior del sesgo.

Suponiendo $X^T X = \mathbf{I}_p$, luego $$R(k) = \frac{p \sigma^2 + k^2 \beta^T \beta}{(1+k)^2}.$$ Vamos $$R^\prime (k) = 2\frac{k(1+k)\beta^T \beta - (p\sigma^2 + k^2 \beta^T \beta)}{(1+k)^3}$$ be the derivative of the risk w/r/t $k$. Desde $\lim_{k \rightarrow 0^+} R^\prime (k) = -2p \sigma^2 < 0$, llegamos a la conclusión de que hay algo de $k^*>0$ tal que $R(k^*)<R(0)$.

Los autores destacan que la ortogonalidad es el mejor que usted puede esperar en términos de riesgo en $k=0$, y que a medida que la condición de número de $X^T X$ aumenta, $\lim_{k \rightarrow 0^+} R^\prime (k)$ enfoques $- \infty$.

Comentario

No parece ser una paradoja, en que si $p=1$ $X$ es constante, entonces estamos a sólo estimar la media de una secuencia Normal de$(\beta, \sigma^2)$ variables, y sabemos que la vainilla estimación insesgada es admisible en este caso. Esto se resuelve haciendo notar que el anterior razonamiento ofrece simplemente que reducir a un mínimo valor de $k$ existe fija $\beta^T \beta$. Pero para cualquier $k$, podemos hacer que el riesgo de explotar, haciendo $\beta^T \beta$ grandes, por lo que este argumento no solo de mostrar la admisibilidad de la cresta de la estimación.

¿Por qué cresta de regresión generalmente se recomienda sólo en el caso de la correlación predictores?

H&K de riesgo de derivación se muestra que, si pensamos que $\beta ^T \beta$ es pequeño, y si el diseño de la $X^T X$ es casi singular, entonces podemos lograr grandes reducciones en el riesgo de la estimación. Creo cresta de regresión no se utiliza de forma ubicua, porque la estimación OLS es un seguro por defecto, y que la invariancia y unbiasedness propiedades son atractivas. Cuando se produce un error, falla franca, su matriz de covarianza explota. También hay quizás un filosófica/inferencial punto, que si su diseño es casi singular, y usted tiene los datos de observación, a continuación, la interpretación de $\beta$ como dar cambios en $E Y$ por unidad de cambio en $X$ es sospechoso--la gran matriz de covarianza es un síntoma de que.

Pero si tu objetivo es únicamente la predicción, la inferencia preocupaciones ya no espera, y tiene un fuerte argumento para el uso de algún tipo de contracción del estimador.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X