9 votos

ANOVA de la interpretación de salida R

Tengo una pregunta sobre cómo un estadístico normalmente interpretar un anova de salida. Decir que tengo anova de salida de R.

> summary(fitted_data)

Call:
lm(formula = V1 ~ V2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.74004 -0.33827  0.04062  0.44064  1.22737 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.11405    0.32089   6.588  1.3e-09 ***
V2           0.03883    0.01277   3.040  0.00292 ** 
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 

Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262,    Adjusted R-squared: 0.06476 
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.002917 

> anova(fit)
Analysis of Variance Table

Response: V1
           Df Sum Sq Mean Sq F value   Pr(>F)   
V2          1  3.588  3.5878  9.2402 0.002917 **
Residuals 118 45.818  0.3883                    
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1 

A partir de lo anterior, supongo que el valor más importante es Pr(>F), derecho? Así que este Rp, es menor de 0,05 (95% de nivel). ¿Cómo debería de mi "explicar" esta? ¿Me lo explican en la "asociación", es decir, V2 y V1 son asociados (o no) ? o en términos de "significado"? Siempre sentí que yo no podía entender cuando la gente dice "Este valor es significativo....". Entonces, ¿qué es "significativo"? Es allí una manera más intuitiva forma de explicación? como "estoy 95% seguro de que ...." .

También, es el Pr valor de la única pieza importante de información? o también, puedo mirar de residuos y el resto de la salida a "explicar" el resultado? gracias

2voto

AdamSane Puntos 1825

A partir de lo anterior, supongo que el valor más importante es Pr(>F), derecho?

No a mí. La idea de que el tamaño de la p-valor es la cosa más importante en un ANOVA es omnipresente, pero creo que casi completamente equivocada. Para empezar el p-valor es una cantidad aleatoria (más aún cuando la nula es verdadera, cuando es uniformemente distribuido entre 0 y 1). Como tal, un menor p-valor no puede ser particularmente informativo en cualquier caso, pero más allá de la cuestión del tamaño de la p-valor de las cosas como los tamaños del efecto son generalmente mucho más importantes.

Si te gusta leer de todo un poco

Cohen, J. (1990). Cosas que he aprendido (hasta el momento), Psicólogo Estadounidense de 45 años, 1304-1312.

Cohen, J. (1994). La tierra es redonda (p < .05). Psicólogo Estadounidense, 49, 997-1003.

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/

http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf

http://en.wikipedia.org/wiki/Statistical_hypothesis_testing#Ongoing_Controversy

--

Yo en realidad no la dirección de la interpretación de la salida, cuando un p-valor es inferior a $\alpha$. Sin decir exactamente lo que es la hipótesis que se consideran, al mencionar el "significado" parece no tener sentido. En ese sentido, entonces sería preferible mencionar la conclusión de que los resultados a partir del rechazo de la nula.

En el caso de que presente, es difícil de interpretar sin contexto (ni siquiera sé si V2 es categórica o continua), pero si V2 se continua me podría decir algo acerca de concluir que hay una asociación entre V1 y V2. Si V2 fue categórica (0-1), yo podría decir algo acerca de las diferencias en la media de la V1 para las dos categorías, y así sucesivamente.

Ahora algunas cosas que NO se que decir:

es menor de 0,05 (95% de nivel)

Nunca llame a p<0,05 "significativas al 95% de nivel". Lo que está mal. Ni tampoco debe usted llamar 95% de cualquier otra cosa.

como "estoy 95% seguro de que ...." .

Nunca digas eso. Lo que está mal.

1voto

berko Puntos 1231

El fragmento de salida podría parecer a primera es esta:

Multiple R-squared: 0.073,    Adjusted R-squared: 0.065
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.003

Es decir que el modelo general fue significativa (F(1,118) = 9.24, p= .003) Y V1 es la que representa aproximadamente el 7% de la varianza en la V2.

El tamaño del efecto (0.039) nos dice que si V2 aumenta en 1, el modelo predice V1 va a aumentar (relación positiva) por ~ .04). El error estándar en la estimación (0.013) indica que (aproximadamente), el 95% de intervalo de confianza de que el efecto es IC95 = [.0135, .064] (es decir, .039- 1.96*.013 a .039+ 1.96*.013)

El intervalo de confianza no incluye el cero, que jives (como debe ser) con el p-valor.

Si desea anova de salida (como el estado), debe pedirle que (no una regresión resumen, que es lo summary() da).

anova(), o, desde la car paquete, Anova le. Dependiendo de sus propósitos, puede que prefiera un coche del Anova de salida por defecto, que dan el efecto de cada variable en el ANOVA como si fue ingresado el pasado, los llamados "tipo III suma de cuadrados".

Si se cambia a un built-en el ejemplo el uso de Rs mtcars conjunto de datos de millas por galón y otros datos como el peso y el tamaño del motor, puede generar un Anova ejemplo:

m1 = lm(mpg ~ wt + disp + cyl+gear+am, data = mtcars);
Anova(m1)
| | Sum Sq| Df| valor de F| Pr(>F) |
|:\begin{vmatrix} \langle a,c \rangle & \langle a,d \rangle \\ \langle b,c \rangle & \langle b,d \rangle \end\begin{vmatrix} \langle a,c \rangle & \langle a,d \rangle \\ \langle b,c \rangle & \langle b,d \rangle \end|------:|--:|-------:|-------:|
|wt| 58.02| 1| 8.27| 0.01*|
|disp| 1.53| 1| 0.22| 0.64 |
|cyl| 57.59| 1| 8.21| 0.01*|
|engranaje| 6.02| 1| 0.86| 0.36 |
|am| 3.44| 1| 0.49| 0.49 |
|Residuos| 182.41| 26| | |

Esto sugiere que el peso del vehículo y el número de cilindros son factores importantes en el vehículo alcanzó millas por galón. Por supuesto, todas estas variables están confundidos en los autos del conjunto de datos, mostrando realmente necesitamos una teoría de consumo de combustible para avanzar por este camino.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X