Para resolver los problemas de selección de modelos, una serie de métodos (LASSO, regresión ridge, etc.) reducirá los coeficientes de variables predictivas hacia cero. Estoy en busca de una explicación intuitiva de por qué esto mejora la capacidad predictiva. Si el verdadero efecto de la variable era realmente muy grande, ¿por qué no reduciendo el parámetro resulta en un pronóstico peor?
Respuestas
¿Demasiados anuncios?A grandes rasgos, hay tres diferentes fuentes de error de predicción:
- el sesgo de su modelo
- la varianza del modelo
- inexplicable la varianza
Nosotros no podemos hacer nada sobre el punto 3 (excepto para intentar estimar la varianza inexplicada y la incorporación de éste en nuestro predictivo de las densidades y los intervalos de predicción). Esto nos deja con 1 y 2.
Si usted realmente tiene el "derecho" del modelo, entonces, decir, OLS estimaciones de los parámetros será imparcial y mínima varianza entre todos los imparcial (lineal) de los estimadores (son de color AZUL). Las predicciones de un modelo OLS será mejor lineales insesgados de las predicciones (BLUPs). Que suena bien.
Sin embargo, resulta que a pesar de que hemos imparcial de las predicciones y de mínima varianza entre todos los imparcial predicciones, la varianza todavía puede ser bastante grande. Lo que es más importante, a veces puede introducir "un poco" sesgo y guardar simultáneamente "un montón" de varianza - y por conseguir el equilibrio justo a la derecha, se puede obtener un menor error de predicción con una sesgada (menor varianza), modelo que con un imparcial (mayor varianza). Este es el llamado "sesgo de la varianza en la solución de compromiso".
Y la regularización como el lazo, regresión ridge, la red elástica y así sucesivamente hacer exactamente eso. Que tire el modelo hacia el cero. (Bayesiano enfoques son similares - de que tire el modelo hacia los priores.) Por lo tanto, los modelos regularizados estará sesgada en comparación a los no-modelos regularizados, pero también tienen menor varianza. Si usted elige a su regularización a la derecha, el resultado es una predicción con un error inferior.
Si la búsqueda para "sesgo de la varianza de compromiso de regularización" o similar, se obtiene un poco de alimento para el pensamiento. Esta presentación, por ejemplo, es útil.
EDIT: ameba bastante señala con razón que soy handwaving de por qué exactamente la regularización de los rendimientos más bajos de la varianza de los modelos y las predicciones. Considere la posibilidad de un lazo modelo con un gran parámetro de regularización de $\lambda$. Si $\lambda\to\infty$, su lazo estimaciones de los parámetros de todo ser reducido a cero. Un parámetro fijo valor de cero cero, varianza. (Esto no es del todo correcto, ya que el valor de umbral de $\lambda$ más allá de que sus parámetros será reducido a cero dependerá de los datos y el modelo. Pero dado el modelo y los datos, usted puede encontrar un $\lambda$ que el modelo es el modelo de cero. Siempre mantenga su cuantificadores recto.) Sin embargo, el cero del modelo será, por supuesto, también tienen un gigante de sesgo. No le importan las observaciones reales, después de todo.
Y lo mismo se aplica a los no-todo-lo-que-los valores extremos de su parámetro de regularización(s): pequeños valores de rendimiento de la unregularized estimaciones de los parámetros, que serán menos sesgada (imparcial si usted tiene la "correcta" del modelo), pero tienen un mayor varianza. Que va a "saltar", a raíz de sus observaciones reales. Valores superiores de su regularización $\lambda$ le "limitar" sus estimaciones de los parámetros más y modo. Esta es la razón por la que los métodos tienen nombres como "lazo" o "red elástica": se restringirá la libertad de sus parámetros para flotar, y seguir los datos.
(Estoy escribiendo un poco de papel en esto, que esperamos sea más accesible. Voy a añadir un enlace una vez que esté disponible.)
Solo para agregar algo a @Kolassa bien la respuesta, en la que toda la cuestión de la contracción de las estimaciones está ligada con Stein paradoja. Para multivariante de los procesos de con $p \geq 3$, el vector de la muestra los promedios no es admisible. En otras palabras, para algunos valores de los parámetros, hay otro estimador con menor riesgo esperado. Stein propone un estimador de la contracción como un ejemplo. Así que estamos tratando con la maldición de la dimensionalidad, ya que la contracción no ayudar a usted cuando usted tiene sólo 1 o 2 variables independientes.
Leer esta respuesta para más. Al parecer, Stein paradoja está relacionado con el conocido teorema de que un Browian proceso de movimiento en 3 o más dimensiones es no-recurrente (se pasea por todo el lugar, sin tener que regresar al origen), mientras que las de 1 y 2 dimensiones Brownians son recurrentes.
Stein paradoja mantiene independientemente de lo que se encogen hacia, aunque en la práctica, se hace mejor si se reduce hacia los verdaderos valores de los parámetros. Esto es lo que Bayesians hacer. Ellos piensan que saben donde está el verdadero parámetro y se contraen hacia ella. Luego dicen que Stein valida su existencia.
Se llama una paradoja, precisamente porque hace un reto a nuestra intuición. Sin embargo, si se piensa en el movimiento Browniano, la única manera de conseguir un 3D el movimiento Browniano para volver al origen sería imponer una amortiguación de la pena en los pasos. Una contracción estimador también impone una especie de amortiguador en las estimaciones (que reduce la varianza), que es la razón por la que funciona.