8 votos

¿Existe un problema de pruebas múltiples cuando se realizan pruebas t para coeficientes múltiples en la regresión lineal?

Esta pregunta proviene de una discusión en el reciente post de @rvl Todo queda en familia; pero ¿incluimos también a los suegros?

Este es un escenario común que he visto muchas veces. Un investigador realiza una regresión lineal simple con, digamos, 5 covariables.

lm(Y ~ X1 + X2 + X3 + X4 + X5, data = df)

Ignorando por el momento los efectos de interacción. Ejecutan el resumen en la regresión y observan lo siguiente:

      Estimate      Pr(>|t|)
X1    a            0.10
X2    b            0.47
X3    c            0.04            
X4    d            0.38
X5    e            0.12

A partir de esto, concluyen que la covariable X3 es un predictor significativo del resultado Y . He visto hacer esto muchas veces.

Mi pregunta es, ¿por qué no tenemos que ajustar estos $P$ -¿valores para las comparaciones múltiples? ¿No estamos haciendo 5 pruebas simultáneamente, aunque sean covariables, aumentando así las posibilidades de ver un falso positivo? Suponiendo 5 pruebas completamente independientes, habría un $1-(1-\alpha)^M = 1-0.95^5 \sim 0.23$ o el 23% de posibilidades de ver un falso positivo, en lugar del 5% habitual, sin embargo, esto no se indica de ninguna manera en el informe de la "asociación significativa".

Este artículo de la pregunta ¿Es buena idea ajustar los valores p en una regresión múltiple para las comparaciones múltiples? parece indicar que si se está haciendo algún tipo de selección de modelo por pasos, entonces es ventajoso corregir el $P$ -valores de sus covariables para tener en cuenta el aumento de la tasa de error de tipo 1. Esto parece indicar que las covariables de las pruebas no actúan de forma diferente a las pruebas habituales.

¿Alguien ha tenido alguna experiencia con esto? Me encantaría escuchar cualquier fallo en mi lógica, o las razones por las que esto no debe hacerse.

6voto

Christoph Hanck Puntos 4143

Puede haber algunos aspectos adicionales que vale la pena considerar (que son demasiado largos para un comentario).

  1. El hecho de que exista o no un problema de pruebas múltiples en una aplicación determinada depende en gran medida de los coeficientes que un investigador analice. En muchas aplicaciones, uno sólo está interesado en 1-2 variables clave, y las otras sólo actúan como "controles". Por ejemplo, en un modelo de datos de panel de efectos fijos, podemos pensar que necesitamos interceptos específicos individuales para controlar la heterogeneidad no observada, pero normalmente no estamos realmente interesados en estos $N$ efectos fijos propiamente dichos. Por otro lado, en la econometría del crecimiento, por ejemplo, examinamos todos los posibles determinantes del crecimiento y, por tanto, estamos dispuestos a examinar todas las variables significativas. En este último caso, tenemos un problema de pruebas múltiples, pero no necesariamente en el primero.

  2. Yo diría que, efectivamente, hay varias alternativas de gran potencia (al menos, de mayor potencia que Bonferroni) para realizar ese ejercicio de selección de modelos. Entre ellas se encuentran el promedio de modelos bayesianos, el análisis de límites extremos, los métodos generales-específicos, los métodos penalizados (Lasso y métodos relacionados) y también los métodos derivados directamente de la literatura de pruebas múltiples. Este último grupo incluye los clásicos basados en el método de Benjamini-Hochberg, pero también métodos más recientes basados en el bootstrap. Para hacer un poco de autopromoción descarada, se comparan y aplican en un artículo mío .

3voto

Para el problema de las pruebas múltiples podría ser bueno echar un vistazo a Límite de error por familia: ¿la reutilización de conjuntos de datos en diferentes estudios de preguntas independientes conduce a problemas de pruebas múltiples? .

En su ejemplo anterior, si estima una regresión en una muestra, entonces puede, con una prueba t sólo decidir sobre la significación de un coeficiente individual, así que, sí, hay un problema de pruebas múltiples si saca conclusiones para múltiples coeficientes, basadas en múltiples pruebas t.

Llamemos a los coeficientes $\beta_i, i = 1, 2, \dots 5$ , entonces puedes probar $H_0^{(1)}: \beta_1 = 0$ frente a $H_1^{(1)}: \beta_1 \ne 0$ con una prueba t y concluir que $\beta_1$ es significativo. Tenga en cuenta que, si no puede rechazar $H_0^{(1)}$ que no se puede concluir que $\beta_1$ es cero (véase ¿Qué ocurre si no se rechaza la hipótesis nula? ).

Así que si quieres encontrar "pruebas estadísticas" para $\beta_1$ no sea cero, entonces su $H_1^{(1)}$ debe ser la expresión que se quiere "probar", es decir $H_1^{(1)}: \beta_1 \ne 0$ y luego $H_0^{(1)}$ es lo contrario, es decir $\beta_1=0$ . Como usted asume $H_0^{(1)}$ para que sea cierto (para derivar una contradicción estadística) se tiene un valor fijo para el parámetro $\beta_1=0$ y de ahí se deduce que se conoce la distribución del estimador $\hat{\beta}_1$ (véase la teoría sobre la regresión lineal) y puede calcular los valores p.

Tomemos ahora el caso en el que se quiere demostrar que $(\beta_1 \ne 0 \text{ and } \beta_2 \ne 0)$ entonces este debe ser su $H_1^{(1,2)}$ y lo contrario $H_0^{(1,2)}$ es que, o bien $(\beta_1 = 0 \text{ or } \beta_2 = 0)$ ya que hay un o ' en ella no se pueden fijar todos los parámetros de la distribución combinada de $(\hat{\beta}_1, \hat{\beta}_2)$ ¡!

¿Puede aplicar múltiples procedimientos de prueba? La mayoría de ellos asumen que los valores p individuales son independientes, en este ejemplo $\hat{\beta}_1$ y $\hat{\beta}_2$ puede no ¡se demuestra que son independientes !

Pero, en un libro avanzado de econometría (por ejemplo, W.H. Greene, "Econometric Analysis") encontrará una prueba aplicable para las restricciones lineales J (simultáneas) ( $\beta_i=0, i=1,2,3,4,5$ es un tipo especial de 5 restricciones lineales) que evitan el problema de las pruebas múltiples.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X