8 votos

¿Técnicas de regresión stepwise aumentar un modelo ' s potencia predictiva?

Entiendo que algunos de los muchos problemas de regresión paso a paso. Sin embargo, como un quehacer académico, supongamos que desea utilizar de regresión paso a paso para un modelo de predicción, y quiero entender mejor el impacto que puede tener sobre el rendimiento.

Dado un modelo lineal, por ejemplo, la realización de regresión por pasos el modelo tienden a aumentar o disminuir el poder predictivo del modelo cuando se presenta con los nuevos datos?

Hay teóricos que los impactos de regresión paso a paso va a tener en la capacidad predictiva?

La experiencia práctica sería de mucha ayuda; tal vez las situaciones cuando regresión paso a paso mejora la predicción, y cuando no.

8voto

Sean Hanley Puntos 2428

Hay una gran variedad de problemas con la selección paso a paso. He explicado paso a paso en mi respuesta aquí: Algoritmos automáticos de selección de modelo. En esa respuesta, yo no se centra principalmente en los problemas de inferencia, sino en el hecho de que los coeficientes son parciales (los atletas de probar son análogas a las variables). Debido a que los coeficientes son sesgados, lejos de sus verdaderos valores, los de la muestra de predicción de error debe ser ampliada, ceteris paribus.

Considerar la noción de que el sesgo de la varianza de trade-off. Si usted piensa de la exactitud de su modelo como la varianza de los errores de predicción (es decir, MSE: $1/n\sum (y_i -\hat y_i)^2$), se espera que el error de predicción es la suma de tres diferentes fuentes de variación:
$$\newcommand{\Var}{{\rm Var}} E\big[(y_i -\hat y_i)^2\big] = \Var(\hat f) + \big[{\rm Sesgo}(\hat f)\big]^2 + \Var(\varepsilon) $$ Estos tres términos son la varianza de la estimación de la función, el cuadrado del sesgo de la estimación, y la irreductible de error en los datos en el proceso de generación, respectivamente. (El último, existe porque los datos no son deterministas—usted nunca se predicciones que están más cerca de que, en promedio.) Los dos primeros vienen del procedimiento utilizado para estimar el modelo. Por defecto se podría pensar OLS es el procedimiento utilizado para estimar el modelo, pero es más correcto decir que la selección paso a paso sobre estimaciones OLS es el procedimiento. La idea de que el sesgo de la varianza de trade-off es que, mientras que un modelo explicativo subraya con razón unbiasedness, un modelo predictivo puede beneficiarse del uso de un sesgada procedimiento si la variación es lo suficientemente reducido (para una explicación más detallada, consulte: ¿Cuál es el problema de hacer la contracción de los métodos de resolver?).

Con esas ideas en mente, el punto de mi respuesta vinculado en la parte superior es que una gran cantidad de sesgo es inducida. Todas las cosas en igualdad de condiciones, que hará de la muestra predicciones peor. Por desgracia, la selección paso a paso no reducir la varianza de la estimación. A lo mejor, su varianza es la misma, pero es muy probable que la varianza mucho peor (por ejemplo, @Glen_b informes sólo el 15,5% de las veces se encuentran el derecho variables incluso elegido en un estudio de simulación que se discuten aquí: ¿por Qué son los valores de p engañosa después de realizar una selección paso a paso?).

0voto

Zizzencs Puntos 1358

Los efectos exactos depende el modelo y la «verdad» que, por supuesto, no podemos saber. Puede ver los efectos del paso a paso en cualquier caso por crossvalidating o usar un simple tren y probar enfoque.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X