4 votos

Interpretación de los resultados de las predicciones del modelo lineal

No podía ver a una pregunta sobre esto. Creo que sólo estoy fuera de la marca en algún lugar con mi forma de pensar. Aquí es un modelo simple:

mod <- lm(hp ~ factor(cyl), data=mtcars)
summary(mod)

             Estimate Std. Error t value Pr(>|t|)    
(Intercept)     82.64      11.43   7.228 5.86e-08 ***
factor(cyl)6    39.65      18.33   2.163   0.0389 *  
factor(cyl)8   126.58      15.28   8.285 3.92e-09 ***

Esto me dice que el hp es significativamente mayor en los 6 cilindros de la línea de base (4 cilindros).

Ahora cuando ejecuto el siguiente, estoy confundido por los resultados.

predict(mod, data.frame(cyl=as.factor(c(4,6,8))), interval="c")

        fit       lwr      upr
1  82.63636  59.25361 106.0191
2 122.28571  92.97388 151.5975
3 209.21429 188.48769 229.9409

El ajuste para la primera es la misma que la de interceptar, tiene sentido. Pero la upr para el primero es mayor que el de los reactores de agua ligera para el segundo, como en, los intervalos se superponen. Cuando veo los intervalos de confianza que se superponen creo que, "no significativamente diferente'.

No pretendo saber TODO acerca de los pros y los contras de modelado, pero pensé que tenía una relación bastante sólida comprensión de los conceptos básicos, sin embargo, claramente estoy perdiendo algo de por qué estos intervalos se superponen...

Edit: Volver a la confusión en torno a la terminología de 'predecir', yo simplemente uso la palabra predecir como que es (explícita) en la función. Soy consciente de que yo estoy usando en la expansión de confianza de la estimación marco.

Nota, una idea de los datos:

> aggregate(hp ~ cyl, data=mtcars, mean)
  cyl        hp
1   4  82.63636
2   6 122.28571
3   8 209.21429
> aggregate(hp ~ cyl, data=mtcars, sd)
  cyl       hp
1   4 20.93453
2   6 24.26049
3   8 50.97689
> aggregate(hp ~ cyl, data=mtcars, length)
  cyl hp
1   4 11
2   6  7
3   8 14

Además:

Basada en la primera respuesta, y una conversación en el chat. Me sale que el valor de p 0.039 es que si el coeficiente de 6cyl es diferente a 0. Que iba a decir, sí, la hp es 6cyl coches es diferente a la de 4cyl coches. La interpretación correcta de la derecha? Y entonces usted dice, "bien, entonces ¿cuál es su estimación de la hp de un 4cyl coche y el hp de un 6cyl coche, por favor incluya su confianza", y luego de obtener el segundo conjunto de resultados, 60-106 para 4cyl y 92-151 para 6cyl. Pero se superponen, entonces, ¿cómo puede usted decir que son diferentes?

Así, por un lado nos dicen que la estimación del coeficiente de 6cyl coches es lo suficientemente lejos de la de 4 cil coches a llamar diferentes, y por otro lado, se calcula un valor de predicción para 4cyl y 6cyl coches y se superponen por lo tanto no son diferentes?

4voto

alexei.vidmich Puntos 320

El uso de los intervalos de confianza asociados con cada uno de los parámetros es incorrecta.

Para comprobar si dos parámetros son significativamente diferentes unos de otros, usted no puede mirar si los intervalos de confianza para cada parámetro se superponen. Usted tiene que comprobar si el intervalo de confianza asociado con la diferencia entre los dos parámetros contiene $0$ o no.

Más formalmente, se comprobar si su hipótesis de que la $\beta_{4cl} = \beta_{6cl}$. La correspondiente prueba estadística para la hipótesis nula es: $t = \hat{\beta}_{4cl} - \hat{\beta}_{6cl}$ y por lo tanto el intervalo de confianza depende de que el error estándar asociado con esta prueba estadística.

0voto

Sunil Rana Puntos 9

Bien. Así que la moneda de un centavo finalmente cayó cuando hablando con un colega sobre ella. Para el 'predijo' (leer expandido) intervalos de confianza para que NO se superponen, no sería esencialmente 4 SE vale de la diferencia, ya que cada CI es la estimación +- 2SE. Y, por supuesto, 4SE sería la tarifa más significativo que el de 0,04.

Por supuesto, eso era simplemente un ejemplo simplificado de algo más complejo en el que estaba trabajando y yo estaba buscando la mejor manera de explicar esto para no estadísticos, que, como yo, ingenuamente, se sienta en esa trampa, a ver que recubre los intervalos de confianza y pensar que no debe ser diferente.

Lectura adicional disponible: http://www.sciencedirect.com/science?_ob=MiamiImageURL&_cid=272610&_user=554529&_pii=S0741521402000307&_check=y&_origin=&_coverDate=31-Jul-2002&view=c&wchp=dGLzVBA-zSkWz&md5=f47e0bb21d5a572a7e0c3299cd0796b7/1-s2.0-S0741521402000307-main.pdf

0voto

Craig Walker Puntos 13478

Yo no veo el conflicto aquí. Su $\beta_{6cyl}$ es probado contra 0. Su predicción intervalo está dando la articulación de confianza ($\beta_0+\beta_6cyl$). Así que, ya que el intervalo (93,151) no contiene 83, están diciendo la misma cosa.

Creo que es menos confuso de lo que usted piensa que usted es. El único problema aquí es que no se trata de si uno de los CI se superpone a la otra, pero si la estimación de punto está contenida en la otra, el intervalo de confianza.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X