27 votos

¿Cuáles son los supuestos de la regresión de cresta y cómo probarlos?

Consideremos el modelo estándar de regresión múltiple $$Y=X\beta+\varepsilon$$ donde $\varepsilon \sim \mathcal N(0, \sigma^2I_n)$ por lo que se cumplen la normalidad, la homocedasticidad y la no correlación de errores.

Supongamos que realizamos una regresión ridge, añadiendo la misma pequeña cantidad a todos los elementos de la diagonal de $X$ :

$$\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y$$

Existen algunos valores de $k$ para los que el coeficiente de cresta tiene menos error cuadrático medio que los obtenidos por MCO, aunque $\beta_\mathrm{ridge}$ es un estimador sesgado de $\beta$ . En la práctica, $k$ se obtiene mediante validación cruzada.

Ésta es mi pregunta: ¿cuáles son los supuestos en los que se basa el modelo de cresta? Para ser más concretos,

  1. ¿Son válidos todos los supuestos de los mínimos cuadrados ordinarios (MCO) con la regresión de cresta?

  2. Si la respuesta a la pregunta 1 es afirmativa, ¿cómo comprobamos la homocedasticidad y la ausencia de autocorrelación con un estimador sesgado de $\beta$ ?

  3. ¿Hay algún trabajo sobre la comprobación de otros supuestos de MCO (homocedasticidad y ausencia de autocorrelación) en el marco de la regresión ridge?

27voto

zowens Puntos 1417

¿Qué es un supuesto de un procedimiento estadístico?

No soy estadístico, así que puede que esté equivocado, pero creo que la palabra "suposición" se utiliza a menudo de manera bastante informal y puede referirse a varias cosas. Para mí, una "suposición" es, estrictamente hablando, algo que sólo puede tener un resultado teórico (teorema).

Cuando se habla de supuestos de regresión lineal ( ver aquí para un debate en profundidad), suelen referirse a la Teorema de Gauss-Markov que dice que bajo supuestos de errores no correlacionados, de igual varianza y media cero, la estimación MCO es AZUL, es decir, es insesgada y tiene varianza mínima. Fuera del contexto del teorema de Gauss-Markov, no me queda claro qué significa una "hipótesis de regresión".

Del mismo modo, los supuestos de una prueba t de una muestra, por ejemplo, se refieren a los supuestos en los que $t$ -estadística es $t$ -y, por tanto, la inferencia es válida. No se llama "teorema", pero es un resultado matemático claro: si $n$ las muestras se distribuyen normalmente, entonces $t$ -seguirá la estadística de Student $t$ -distribución con $n-1$ grados de libertad.

Supuestos de las técnicas de regresión penalizada

Consideremos ahora cualquier técnica de regresión regularizada: regresión ridge, lasso, red elástica, regresión de componentes principales, regresión de mínimos cuadrados parciales, etc. etc. El objetivo de estos métodos es hacer una sesgada estimación de los parámetros de regresión, y con la esperanza de reducir la pérdida esperada explotando la compensación sesgo-varianza.

Todos estos métodos incluyen uno o varios parámetros de regularización y ninguno de ellos tiene una regla definida para seleccionar los valores de estos parámetros. El valor óptimo suele encontrarse mediante algún tipo de procedimiento de validación cruzada, pero existen varios métodos de validación cruzada y pueden dar resultados algo diferentes. Además, no es infrecuente invocar algunas reglas empíricas adicionales además de la validación cruzada. En consecuencia, el resultado real $\hat \beta$ de cualquiera de estos métodos de regresión penalizada en realidad no está totalmente definido por el método, sino que puede depender de las elecciones del analista.

Por lo tanto, no me queda claro cómo puede haber alguna afirmación teórica de optimalidad sobre $\hat \beta$ Por eso no estoy seguro de que hablar de "supuestos" (presencia o ausencia de ellos) de métodos penalizados como la regresión ridge tenga sentido.

Pero, ¿qué ocurre con el resultado matemático de que la regresión ridge siempre supera a la MCO?

Hoerl & Kennard (1970) en Regresión Ridge: Estimación sesgada para problemas no ortogonales demostró que existe siempre existe un valor del parámetro de regularización $\lambda$ tal que la estimación de regresión ridge de $\beta$ tiene una pérdida esperada estrictamente menor que la estimación OLS. Es un resultado sorprendente ver aquí para alguna discusión, pero sólo prueba la existencia de tales $\lambda$ que dependerá del conjunto de datos.

En realidad, este resultado no requiere ningún supuesto y siempre es cierto, pero sería extraño afirmar que la regresión de cresta no tiene ningún supuesto.

Vale, pero ¿cómo sé si puedo aplicar la regresión ridge o no?

Yo diría que aunque no podamos hablar de supuestos, sí podemos hablar de reglas generales . Es bien sabido que la regresión ridge tiende a ser más útil en caso de regresión múltiple con predictores correlacionados. Es bien sabido que tiende a superar a OLS, a menudo por un amplio margen. Tenderá a superarlo incluso en el caso de heteroscedasticidad, errores correlacionados o cualquier otra cosa. Así que la regla general es que si tiene datos multicolineales, la regresión ridge y la validación cruzada son una buena idea.

Probablemente existan otras reglas generales y trucos útiles (como, por ejemplo, qué hacer con los valores atípicos). Pero no son suposiciones.

Obsérvese que para la regresión MCO se necesitan algunos supuestos para $p$ -valores a mantener. En cambio, es difícil obtener $p$ -en la regresión de cresta. Si esto se hace, se hace mediante bootstrapping o algún método similar y, de nuevo, sería difícil señalar supuestos específicos porque no hay garantías matemáticas.

0voto

Emma Puntos 21

Me gustaría aportar algo desde el punto de vista de la estadística. Si Y~N(Xb, sigma2*In), entonces el error cuadrático medio de b^ es

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

Si X.T X es aproximadamente cero, entonces inv(X.T X) será muy grande. Así que la estimación del parámetro de b no es estable y puede tener el siguiente problema.

  1. algún valor absoluto de la estimación del parámetro es muy grande
  2. b tiene signo positivo o negativo opuesto al esperado.
  3. añadir o eliminar variables u observaciones hará que las estimaciones de los parámetros cambien drásticamente.

Para que la estimación por mínimos cuadrados ordinales de b sea estable, introducimos la regresión de cresta estimando la b^(k)=inv(X.T*X+kI)*X.T*Y. Y podemos demostrar que siempre hay un k que hace que el error cuadrático medio de

MSE(b^(k)) < MSE(b^).

En el aprendizaje automático, la regresión de cresta se denomina regularización L2 y sirve para combatir los problemas de sobreajuste causados por muchas características.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X