1 votos

Estudio de simulación: ¿qué varianzas de error utilizar a partir de datos empíricos? ¿El error MS de un ANOVA o la varianza de sus residuos?

Quiero hacer un estudio de simulación en R y ya tengo algunos datos empíricos, que me dan una pista sobre los parámetros de varianza a establecer. Pero, ¿qué debo utilizar para la varianza del error? Aquí hay un ejemplo de lo que quiero decir:

> a <- aov(terms(yield ~ block + N * P + K, keep.order=TRUE), npk)
> anova(a)
Analysis of Variance Table

Response: yield
          Df Sum Sq Mean Sq F value   Pr(>F)   
block      5 343.29  68.659  4.3911 0.012954 * 
N          1 189.28 189.282 12.1055 0.003684 **
P          1   8.40   8.402  0.5373 0.475637   
N:P        1  21.28  21.282  1.3611 0.262841   
K          1  95.20  95.202  6.0886 0.027114 * 
Residuals 14 218.90  15.636                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> var(residuals(a))
[1] 9.517536

Entonces, ¿utilizaría 15,6 o 9,5 como varianza del error empírico?

0voto

manku Puntos 111

"A medio camino" entre las dos sugerencias de mi (largo y posiblemente críptico) Comentario, aquí hay un ANOVA de dos vías simulado, en el que MS(Resid) es una estimación de la $\sigma^2$ utilizado para simular el modelo.

set.seed(1234)
e = rnorm(24, 0, 2)
sd(e)
[1] 1.87691

a = rep(1:2, each=12)
b = rep(rep(1:3, each=4), 2)
x = 2*a + 3*b + e
A = as.factor(a); B = as.factor(b)

out = aov(x~A+B); out
Call:
   aov(formula = x ~ A + B)

Terms:
                        A         B Residuals
Sum of Squares   49.67123 132.10586  73.73120
Deg. of Freedom         1         2        20

Residual standard error: 1.920042                  # compare 1.87691
Estimated effects may be unbalanced

anova(out)
Analysis of Variance Table

Response: x
          Df  Sum Sq Mean Sq F value    Pr(>F)    
A          1  49.671  49.671  13.474  0.001517 ** 
B          2 132.106  66.053  17.917 3.478e-05 ***
Residuals 20  73.731   3.687                       # compare 1.92^2 = 3.6864                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Resumen: $\sigma^2 = 2^2 = 4.$ La DE de la muestra de los errores simulados es de 1,88, Resid SE = 1,92, MS(Resid) = 3,69.

IC del 95% para $\sigma^2$ basado en la simulación de e de mi modelo es $(2.13, 6.93),$ que incluye $\sigma^2 = 4.$

23*var(e)/qchisq(c(.975,.025), 23)
[1] 2.127980 6.931925

IC del 95% para $\sigma^2$ basado en SS(Resid) es $(2.16, 7.69),$ que cubre $\sigma^2=4.$

73.731/qchisq(c(.975,.025), 20)
[1] 2.157795 7.687698

Nota: Aquí hay información sobre los 24 residuos.

r = residuals(out)
length(r); mean(r); var(r)
[1] 24
[1] -1.168002e-16
[1] 3.205704

0voto

Banning Puntos 1325

Resumiendo lo que me inspiró BruceET, encontré una respuesta bastante sencilla a mi pregunta:

Simular con los parámetros que se recibieron de la misma forma que se analizan posteriormente los datos simulados.

En realidad, esto se explica por sí mismo y podría haberlo descubierto antes, pero quizá alguien tenga la misma pregunta algún día.

Esto significa: Si analiza los valores empíricos con un modelo lineal (por ejemplo, ANOVA) y luego utiliza los resultados como sus parámetros para sus simulaciones (por ejemplo, la EM residual para la varianza del error), asegúrese de analizar también los datos simulados de la misma manera, es decir, analícelos con un ANOVA y observe la EM residual en este ejemplo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X