No podía ver a una pregunta sobre esto. Creo que sólo estoy fuera de la marca en algún lugar con mi forma de pensar. Aquí es un modelo simple:
mod <- lm(hp ~ factor(cyl), data=mtcars)
summary(mod)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 82.64 11.43 7.228 5.86e-08 ***
factor(cyl)6 39.65 18.33 2.163 0.0389 *
factor(cyl)8 126.58 15.28 8.285 3.92e-09 ***
Esto me dice que el hp es significativamente mayor en los 6 cilindros de la línea de base (4 cilindros).
Ahora cuando ejecuto el siguiente, estoy confundido por los resultados.
predict(mod, data.frame(cyl=as.factor(c(4,6,8))), interval="c")
fit lwr upr
1 82.63636 59.25361 106.0191
2 122.28571 92.97388 151.5975
3 209.21429 188.48769 229.9409
El ajuste para la primera es la misma que la de interceptar, tiene sentido. Pero la upr para el primero es mayor que el de los reactores de agua ligera para el segundo, como en, los intervalos se superponen. Cuando veo los intervalos de confianza que se superponen creo que, "no significativamente diferente'.
No pretendo saber TODO acerca de los pros y los contras de modelado, pero pensé que tenía una relación bastante sólida comprensión de los conceptos básicos, sin embargo, claramente estoy perdiendo algo de por qué estos intervalos se superponen...
Edit: Volver a la confusión en torno a la terminología de 'predecir', yo simplemente uso la palabra predecir como que es (explícita) en la función. Soy consciente de que yo estoy usando en la expansión de confianza de la estimación marco.
Nota, una idea de los datos:
> aggregate(hp ~ cyl, data=mtcars, mean)
cyl hp
1 4 82.63636
2 6 122.28571
3 8 209.21429
> aggregate(hp ~ cyl, data=mtcars, sd)
cyl hp
1 4 20.93453
2 6 24.26049
3 8 50.97689
> aggregate(hp ~ cyl, data=mtcars, length)
cyl hp
1 4 11
2 6 7
3 8 14
Además:
Basada en la primera respuesta, y una conversación en el chat. Me sale que el valor de p 0.039 es que si el coeficiente de 6cyl es diferente a 0. Que iba a decir, sí, la hp es 6cyl coches es diferente a la de 4cyl coches. La interpretación correcta de la derecha? Y entonces usted dice, "bien, entonces ¿cuál es su estimación de la hp de un 4cyl coche y el hp de un 6cyl coche, por favor incluya su confianza", y luego de obtener el segundo conjunto de resultados, 60-106 para 4cyl y 92-151 para 6cyl. Pero se superponen, entonces, ¿cómo puede usted decir que son diferentes?
Así, por un lado nos dicen que la estimación del coeficiente de 6cyl coches es lo suficientemente lejos de la de 4 cil coches a llamar diferentes, y por otro lado, se calcula un valor de predicción para 4cyl y 6cyl coches y se superponen por lo tanto no son diferentes?