5 votos

Comprender por qué la selección por pasos basada en los valores p es mala

Intento demostrar que no se debe utilizar el método escalonado. De hecho, en mi trabajo a menudo modelamos los datos de la misma manera. Recientemente he comprado el interesante libro de Frank Harrell (Regression Modeling Strategies). En la sección 4.3 Selección de variables afirma lo siguiente:

Pero el uso de $Y$ para calcular $P$ -para decidir qué variables incluir es similar al uso de $Y$ para agrupar el tratamiento en un ensayo aleatorio de cinco tratamientos, y luego probar las diferencias globales de tratamiento utilizando menos de cuatro grados de libertad.

Dio una explicación similar en un post aquí en CrossValidated pero no entiendo ambas cosas (agrupación y luego pruebas de diferencias globales).

Entiendo que hay un problema de multiplicidad de pruebas pero me gustaría tener una prueba más técnica o más detalles respecto a estos ejemplos.

1voto

Marco Fumagalli Puntos 33

Por si sirve de algo, intento dar mi explicación.

Una de las razones para definir la selección por pasos como un mal procedimiento, es que en cualquier paso el modelo se ajusta utilizando los mínimos cuadrados clásicos, es decir, sin restricciones. Si está planeando hacer una selección de características, normalmente significa que se encuentra en un escenario en el que $p>>n$ . Para encontrar $\beta$ OLS trata de invertir la matriz $X^tX$ que no es invertible en este caso. Así que usted debe preferir el método como Lasso, que son OLS restringido.

Segunda razón: el procedimiento escalonado es subóptimo por definición. Cada variable se selecciona de forma codiciosa y el algoritmo no puede saber simplemente si ha encontrado un óptimo global o sólo un óptimo local.

Yo añadiría que hay un problema general con la selección de rasgos: la gente olvida que si utiliza sus datos dos veces, para realizar la selección de rasgos y luego para llevar a cabo cualquier inferencia sobre sus datos, está introduciendo un sesgo sustancial en su estimación. Lea esto: http://www.maths.bath.ac.uk/~jjf23/papers/interface98.pdf

También hay un problema con las pruebas múltiples. si no corriges tus pruebas de hipótesis (revisa las correcciones de bonferroni por ejemplo) terminas rechazando incorrectamente una prueba de hipótesis que sí es verdadera https://www.stat.berkeley.edu/~mgoldman/Sección0402.pdf

Una buena manera de hacer la selección de características que explota el método del lazo : https://www.stat.cmu.edu/~ryantibs/journalclub/stability.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X