Me gustaría sugerir que este fenómeno (de no significativos general de la prueba a pesar de una importante cada variable) puede ser entendido como una especie de agregado de "enmascaramiento" y que a pesar de que posiblemente podría surgir de multicollinear variables explicativas, no es necesario hacer nada de esto. También resulta no ser debido a múltiples comparación de los ajustes. Por lo tanto, esta respuesta es la adición de algunas de las calificaciones a las respuestas que ya han aparecido, que por el contrario se sugiere que la multicolinealidad o múltiples comparaciones deben ser vistos como los culpables.
Para establecer la verosimilitud de estas afirmaciones, vamos a generar una colección de perfectamente ortogonal de las variables-como no-alineados como sea posible--y una variable dependiente que explícitamente se determina únicamente por la primera de las explanands (además de una buena cantidad de errores aleatorios independientes de todo lo demás). En R
esto se puede hacer (de forma reproducible, si usted desea experimento) como
set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)
Es importante que las variables explicativas son binarias; lo que importa es su ortogonalidad, que podemos comprobar para asegurarse de que el código funciona como se esperaba, lo cual puede hacerse mediante la inspección de sus correlaciones. De hecho, la matriz de correlación es muy interesante: el pequeño coeficientes sugieren y
tiene poco que ver con ninguna de las variables a excepción de la primera (que es por diseño) y la diagonal ceros confirmar la ortogonalidad de las variables explicativas:
> cor(cbind(x,y))
Var1 Var2 Var3 Var4 Var5 y
Var1 1.00 0.000 0.000 0.000 0.00 0.486
Var2 0.00 1.000 0.000 0.000 0.00 0.088
Var3 0.00 0.000 1.000 0.000 0.00 0.044
Var4 0.00 0.000 0.000 1.000 0.00 -0.014
Var5 0.00 0.000 0.000 0.000 1.00 -0.167
y 0.49 0.088 0.044 -0.014 -0.17 1.000
Vamos a ejecutar una serie de regresiones, utilizando sólo la primera variable, a continuación, los dos primeros, y así sucesivamente. Por razones de brevedad y fácil comparación, en cada uno de ellos me muestran sólo la línea para la primera variable y la general de la prueba F:
>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))
# Estimate Std. Error t value Pr(>|t|)
1 x[, 1:i] 0.898 0.294 3.05 0.0048 **
F-statistic: 9.29 on 1 and 30 DF, p-value: 0.00478
2 x[, 1:i]Var1 0.898 0.298 3.01 0.0053 **
F-statistic: 4.68 on 2 and 29 DF, p-value: 0.0173
3 x[, 1:i]Var1 0.8975 0.3029 2.96 0.0062 **
F-statistic: 3.05 on 3 and 28 DF, p-value: 0.0451
4 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0072 **
F-statistic: 2.21 on 4 and 27 DF, p-value: 0.095
5 x[, 1:i]Var1 0.8975 0.3084 2.91 0.0073 **
F-statistic: 1.96 on 5 and 26 DF, p-value: 0.118
Mira cómo (a) el significado de la primera variable apenas cambios, (a') la primera variable es significativa (p < .05), incluso cuando el ajuste para comparaciones múltiples (por ejemplo, aplicar la corrección de Bonferroni multiplicando el valor nominal valor de p por el número de variables explicativas), (b) el coeficiente de la primera variable apenas cambios, pero (c) la importancia global que crece de manera exponencial, de forma rápida de inflar a un no-significativo.
Yo interpreto esto como una demostración de que , incluyendo las variables explicativas que son en gran medida independientes de la variable dependiente puede "enmascarar" el general p-valor de la regresión. Cuando las nuevas variables son ortogonales a las existentes y a la variable dependiente, que no va a cambiar el individuo p-valores. (Los pequeños cambios que se ven aquí son porque el error aleatorio añadido a y
es, por accidente, un poco correlacionada con todas las demás variables). Una lección de esto es que la parsimonia es valioso: utilizando como pocas variables según sea necesario, pueden reforzar la importancia de los resultados.
Yo soy no diciendo que esto no es necesariamente ocurre para el conjunto de datos en la pregunta, acerca de la cual poco se ha divulgado. Pero el conocimiento de que este efecto de enmascaramiento puede suceder debe informar a nuestra interpretación de los resultados así como de las estrategias para la selección de variables y construcción de modelos.