5 votos

¿Por qué el ANOVA en R muestra un resultado diferente al ANOVA de otra fuente?

Soy nuevo en R y en la estadística. Estoy intentando realizar un ANOVA 2x2 en un conjunto de datos de Excel en el que los dos factores son el género y los deportistas y la variable dependiente es la expresión de la ira. Cuando estoy calculando el ANOVA en el conjunto de datos, la suma cuadrada de género siempre muestra 1 por alguna razón, sin embargo, cuando compruebo en http://vassarstats.net da un resumen diferente que en realidad es el correcto. ¿Podría ayudarme con esto?

He intentado cambiar los valores de Género y Atletas de M/F y S/NS a 1/2. También he intentado cambiar las columnas con la esperanza de que algo pueda cambiar. He comprobado en vassarstats.net introduciendo los mismos valores que me dan la respuesta correcta. Conjunto de datos - https://drive.google.com/file/d/15cR4OR1hdso9Xm6fKc5jiFsSDzJK5pOn/view?usp=sharing

Código que he ejecutado

> Angry_moods_r$Gender <- as.factor(Angry_moods_r$Gender)
> Angry_moods_r$Athletes <- as.factor(Angry_moods_r$Athletes)
> anova1 <- aov(Anger_Expr ~ Gender+Athletes+Gender*Athletes, data = Angry_moods_r)
> summary(anova1)
                Df Sum Sq Mean Sq F value  Pr(>F)   
Gender           1      1     1.4   0.009 0.92598   
Athletes         1   1357  1357.2   8.709 0.00424 **
Gender:Athletes  1      5     5.2   0.034 0.85505   
Residuals       74  11532   155.8                   

Respuesta correcta

                Df   Sum Sq Mean Sq F value  Pr(>F)   
Gender           1    20.87   20.87   0.13  0.7195   
Athletes         1  1286.93 1286.93   8.26  0.0053 **
Gender:Athletes  1     5.24    5.24   0.03  0.863   
Residuals       74 11532.19  155.84 
Total           77    12896

1 votos

No tengo ni idea de cómo has obtenido la "respuesta correcta" y, por tanto, no puedo reproducirla, pero obtengo un resultado algo similar si calculo un ANOVA de tipo II utilizando library(car); Anova(anova1, type = 2) .

0 votos

Gracias por proporcionar tus datos y mostrar la salida que dio lugar a tu pregunta.

0 votos

Una nota: Los SS en la primera salida están siendo redondeados a enteros. Eso no responde a su pregunta (creo que @Roland puede estar en el camino de hacer eso) pero vale la pena señalar.

3voto

user164061 Puntos 281

En R se puede obtener el resultado así:

# the data transformed to +/- values 
#      this will give a different behaviour for dropping a
#      fixed effect term while keeping the interaction term
a <- (0.5-(data$Athletes == 'S'))
g <- (0.5-(data$Gender == 'M'))
y <- data$Anger_Expr 

# linear model
m <- lm(y~a*g)

# the sum of squares by using type III sums
> drop1(m,.~.)
Single term deletions

Model:
y ~ a * g
       Df Sum of Sq   RSS    AIC
<none>              11532 397.70
a       1   1286.93 12819 403.95
g       1     20.87 11553 395.84
a:g     1      5.24 11537 395.74

La razón de estas diferencias es que el análisis de la varianza puede realizarse de diferentes maneras.

  1. Usted está comparando modelos con y sin el factor, pero esto es ambiguo (ver las diferentes sumas de tipo I/II/III ).

  2. Además, se puede definir el término de interacción de varias maneras y esto influye en la diferencia de la suma de los residuos al cuadrado cuando se elimina un término de efecto fijo. Esto explica la diferencia entre la respuesta de BruceET y el comentario de Roland.

2voto

manku Puntos 111

Este es un diseño desequilibrado. Es decir, no tiene el mismo número de réplicas en cada una de las cuatro celdas. En Minitab, el procedimiento 'ANOVA equilibrado' (correctamente) muestra un error debido al desequilibrio.

A continuación se muestra la salida del modelo lineal general procedimiento en Minitab 17, que maneja diseños desequilibrados.

Analysis of Variance

Source             DF   Adj SS   Adj MS  F-Value  P-Value
  Athletes          1   1286.9  1286.93     8.26    0.005
  Gender            1     20.9    20.87     0.13    0.715
  Athletes*Gender   1      5.2     5.24     0.03    0.855
Error              74  11532.2   155.84
Total              77  12896.0

Mi opinión es que el procedimiento R que está utilizando no es apropiado para diseños no equilibrados. Quizás vea este enlace sobre ANOVA de dos factores en R --al final, donde se discuten los diseños desequilibrados se discuten los diseños desequilibrados.


Notas: (1) Si sólo se observan las puntuaciones del estado de ánimo y los tipos de deportistas (*53 "NS" y 25 "S"), se puede hacer una prueba t de dos muestras. Los resultados de una prueba de Welch (varianzas separadas) son los siguientes:

T-Test of difference = 0 (vs !=): 
T-Value = 3.21  P-Value = 0.002  DF = 57

La prueba correspondiente a Género (48 "F" y 30 "M") no muestra una diferencia significativa diferencia.

(2) Se puede ver el desequilibrio porque hay tamaños de muestra desiguales en las dos pruebas t. Si se tratara de un diseño equilibrado, las filas de la tabla ANOVA (aparte de Total) corresponderían corresponderían a subespacios ortogonales de un espacio vectorial de 77 dimensiones y (suponiendo normalidad) sus SS serían estadísticas independientes. Los ajustes en los SS's reflejan compromisos basados en proyecciones no ortogonales.

(3) No he comprobado la normalidad ni la igualdad de varianzas porque el tema principal de su pregunta es explicar las diferencias de resultados entre dos programas informáticos, pero debería comprobar los supuestos del ANOVA antes de interpretar los resultados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X