Esta pregunta proviene de una discusión en el reciente post de @rvl Todo queda en familia; pero ¿incluimos también a los suegros?
Este es un escenario común que he visto muchas veces. Un investigador realiza una regresión lineal simple con, digamos, 5 covariables.
lm(Y ~ X1 + X2 + X3 + X4 + X5, data = df)
Ignorando por el momento los efectos de interacción. Ejecutan el resumen en la regresión y observan lo siguiente:
Estimate Pr(>|t|)
X1 a 0.10
X2 b 0.47
X3 c 0.04
X4 d 0.38
X5 e 0.12
A partir de esto, concluyen que la covariable X3
es un predictor significativo del resultado Y
. He visto hacer esto muchas veces.
Mi pregunta es, ¿por qué no tenemos que ajustar estos $P$ -¿valores para las comparaciones múltiples? ¿No estamos haciendo 5 pruebas simultáneamente, aunque sean covariables, aumentando así las posibilidades de ver un falso positivo? Suponiendo 5 pruebas completamente independientes, habría un $1-(1-\alpha)^M = 1-0.95^5 \sim 0.23$ o el 23% de posibilidades de ver un falso positivo, en lugar del 5% habitual, sin embargo, esto no se indica de ninguna manera en el informe de la "asociación significativa".
Este artículo de la pregunta ¿Es buena idea ajustar los valores p en una regresión múltiple para las comparaciones múltiples? parece indicar que si se está haciendo algún tipo de selección de modelo por pasos, entonces es ventajoso corregir el $P$ -valores de sus covariables para tener en cuenta el aumento de la tasa de error de tipo 1. Esto parece indicar que las covariables de las pruebas no actúan de forma diferente a las pruebas habituales.
¿Alguien ha tenido alguna experiencia con esto? Me encantaría escuchar cualquier fallo en mi lógica, o las razones por las que esto no debe hacerse.