7 votos

Los peligros del paso a paso de selección de variables en la regresión

Este trabajo se analizan algunos de los peligros de usar paso a paso variable de procedimientos de selección:

http://www.auburn.edu/~tds0009/Artículos/Whittingham%20et%20al.%202006.pdf

Yo estoy luchando para entender la Figura 1b. Los autores de los datos generados de acuerdo con el modelo de $y = 0.5x + e$. Los conjuntos de datos de tamaño de la muestra $n$ = 10 fueron dibujadas y un modelo lineal ajustado. La figura 1a muestra la distribución de las pendientes estimadas por estos modelos lineales. Una variable de un procedimiento de selección se llevó a cabo, por las pruebas de cada uno de los estimados de la pendiente en contra de una pendiente de cero. Una pendiente fue descartada si la prueba era insignificante. La figura 1b muestra la resultante de la distribución de pistas, siguiendo el procedimiento de selección de variables.

Aquí es lo que no entiendo...que yo hubiera esperado cualquier estimados betas que en realidad eran cero o muy cercano a cero para ser descartado, ya que habría sido insignificante en el t-test. Yo habría esperado cualquier estimados betas que estaban más cerca de -1 o decir acerca de 0.5 y de arriba para ser retenido. Por lo tanto, yo habría esperado que la Figura 1b tener una diferencia en torno a la marca del cero (donde betas fueron descartados) y todas las otras betas para ser retenidos. Lo que es extraño para mí es que las betas que en realidad eran cero, se han mantenido, mientras que la mayoría de los otros han desechado.

Sería alguien como para explicar la distribución de las betas en la Figura 1b, y por qué estas betas han sido retenidos?

6voto

Martin O'Leary Puntos 2046

La figura muestra la distribución de la estimación de la pendiente de los parámetros sobre todos los modelos, no sólo a aquellos que fueron significativamente diferentes de cero. La espiga en el cero representa todos los modelos, donde la pendiente se considera insignificante, y por lo que un cero en la pendiente se utiliza el modelo. El punto es demostrar que la variable de selección de procedimiento conduce a estimaciones de $\beta$ cuales son cero (y por lo tanto demasiado baja) o muy grande (debido a la mayor estimaciones son "más importantes").

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X