Intento demostrar que no se debe utilizar el método escalonado. De hecho, en mi trabajo a menudo modelamos los datos de la misma manera. Recientemente he comprado el interesante libro de Frank Harrell (Regression Modeling Strategies). En la sección 4.3 Selección de variables afirma lo siguiente:
Pero el uso de $Y$ para calcular $P$ -para decidir qué variables incluir es similar al uso de $Y$ para agrupar el tratamiento en un ensayo aleatorio de cinco tratamientos, y luego probar las diferencias globales de tratamiento utilizando menos de cuatro grados de libertad.
Dio una explicación similar en un post aquí en CrossValidated pero no entiendo ambas cosas (agrupación y luego pruebas de diferencias globales).
Entiendo que hay un problema de multiplicidad de pruebas pero me gustaría tener una prueba más técnica o más detalles respecto a estos ejemplos.