¿Qué es un supuesto de un procedimiento estadístico?
No soy estadístico, así que puede que esté equivocado, pero creo que la palabra "suposición" se utiliza a menudo de manera bastante informal y puede referirse a varias cosas. Para mí, una "suposición" es, estrictamente hablando, algo que sólo puede tener un resultado teórico (teorema).
Cuando se habla de supuestos de regresión lineal ( ver aquí para un debate en profundidad), suelen referirse a la Teorema de Gauss-Markov que dice que bajo supuestos de errores no correlacionados, de igual varianza y media cero, la estimación MCO es AZUL, es decir, es insesgada y tiene varianza mínima. Fuera del contexto del teorema de Gauss-Markov, no me queda claro qué significa una "hipótesis de regresión".
Del mismo modo, los supuestos de una prueba t de una muestra, por ejemplo, se refieren a los supuestos en los que $t$ -estadística es $t$ -y, por tanto, la inferencia es válida. No se llama "teorema", pero es un resultado matemático claro: si $n$ las muestras se distribuyen normalmente, entonces $t$ -seguirá la estadística de Student $t$ -distribución con $n-1$ grados de libertad.
Supuestos de las técnicas de regresión penalizada
Consideremos ahora cualquier técnica de regresión regularizada: regresión ridge, lasso, red elástica, regresión de componentes principales, regresión de mínimos cuadrados parciales, etc. etc. El objetivo de estos métodos es hacer una sesgada estimación de los parámetros de regresión, y con la esperanza de reducir la pérdida esperada explotando la compensación sesgo-varianza.
Todos estos métodos incluyen uno o varios parámetros de regularización y ninguno de ellos tiene una regla definida para seleccionar los valores de estos parámetros. El valor óptimo suele encontrarse mediante algún tipo de procedimiento de validación cruzada, pero existen varios métodos de validación cruzada y pueden dar resultados algo diferentes. Además, no es infrecuente invocar algunas reglas empíricas adicionales además de la validación cruzada. En consecuencia, el resultado real $\hat \beta$ de cualquiera de estos métodos de regresión penalizada en realidad no está totalmente definido por el método, sino que puede depender de las elecciones del analista.
Por lo tanto, no me queda claro cómo puede haber alguna afirmación teórica de optimalidad sobre $\hat \beta$ Por eso no estoy seguro de que hablar de "supuestos" (presencia o ausencia de ellos) de métodos penalizados como la regresión ridge tenga sentido.
Pero, ¿qué ocurre con el resultado matemático de que la regresión ridge siempre supera a la MCO?
Hoerl & Kennard (1970) en Regresión Ridge: Estimación sesgada para problemas no ortogonales demostró que existe siempre existe un valor del parámetro de regularización $\lambda$ tal que la estimación de regresión ridge de $\beta$ tiene una pérdida esperada estrictamente menor que la estimación OLS. Es un resultado sorprendente ver aquí para alguna discusión, pero sólo prueba la existencia de tales $\lambda$ que dependerá del conjunto de datos.
En realidad, este resultado no requiere ningún supuesto y siempre es cierto, pero sería extraño afirmar que la regresión de cresta no tiene ningún supuesto.
Vale, pero ¿cómo sé si puedo aplicar la regresión ridge o no?
Yo diría que aunque no podamos hablar de supuestos, sí podemos hablar de reglas generales . Es bien sabido que la regresión ridge tiende a ser más útil en caso de regresión múltiple con predictores correlacionados. Es bien sabido que tiende a superar a OLS, a menudo por un amplio margen. Tenderá a superarlo incluso en el caso de heteroscedasticidad, errores correlacionados o cualquier otra cosa. Así que la regla general es que si tiene datos multicolineales, la regresión ridge y la validación cruzada son una buena idea.
Probablemente existan otras reglas generales y trucos útiles (como, por ejemplo, qué hacer con los valores atípicos). Pero no son suposiciones.
Obsérvese que para la regresión MCO se necesitan algunos supuestos para $p$ -valores a mantener. En cambio, es difícil obtener $p$ -en la regresión de cresta. Si esto se hace, se hace mediante bootstrapping o algún método similar y, de nuevo, sería difícil señalar supuestos específicos porque no hay garantías matemáticas.