Tengo un archivo de datos con valores de duración de la tarea para tres grupos, y quiero determinar el efecto del grupo en la duración de la tarea (las tareas fueron ejecutadas por individuos; cada grupo tenía 7 individuos diferentes; cada individuo ejecutó las mismas tres tareas; y los datos de un individuo del grupo B no se registraron debido a un problema de configuración durante el experimento).
He creado a partir del archivo de datos el siguiente gráfico de caja (los puntos rojos son las medias, y "n" es el número de valores temporales en cada grupo):
y también el siguiente histograma (duración indicada en "min:seg"):
Mi muestra de datos por grupo es pequeña, y la "prueba de normalidad de Shapiro-Wilk" me dice que el grupo A no procede de una distribución normal, y que los grupos B y C proceden de una distribución normal. Como los grupos son pequeños y uno de ellos no es normal, decidí realizar el análisis de varianza de una vía de Kruskal-Wallis (no paramétrico) y su resultado fue:
Kruskal-Wallis rank sum test
data: Duration by Group
Kruskal-Wallis chi-squared = 4.2811, df = 2, p-value = 0.1176
por lo que debería aceptar que el efecto de los grupos no era significativo (valor p > 0,05).
Sin embargo, cuando ejecuté el Anova de una vía (comprobación de cordura por si acaso Kruskal-Wallis no era la opción correcta), el resultado de Anova fue:
ANOVA Duration ~ Group
Df Sum Sq Mean Sq F value Pr(>F)
Group 2 0.0003692 1.846e-04 6.473 0.00293 **
Residuals 57 0.0016257 2.852e-05
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Tukey multiple comparisons of means
95% family-wise confidence level
diff lwr upr p adj
B-A -0.0055763154 -0.009704328 -0.0014483027 0.0054132
C-A -0.0048032407 -0.008769307 -0.0008371744 0.0138750
C-B 0.0007730747 -0.003354938 0.0049010874 0.8943085
Es decir, el Anova devuelve un valor p < 0,05, es decir, dice que el efecto del grupo es significativo (en este caso, el grupo A era significativamente diferente respecto al B y al C).
Sin embargo, debido al pequeño número de muestras por grupo y al hecho de que un grupo no se distribuye normalmente, tiendo a aceptar el resultado de Kruskal-Wallis, pero no estoy seguro.
Así que mis preguntas son:
¿Debo aceptar el resultado de Kruskal-Wallis porque esta prueba es más adecuada que el Anova para este caso concreto?
¿Cómo debería haber utilizado el diagrama de caja y el histograma para decidir la prueba más adecuada?
Gracias
0 votos
Se supone que los residuos están distribuidos normalmente, ¿cuál es el resultado de la prueba de Shapiro-Wilks para los residuos?
0 votos
@Glen La prueba de Shapiro-Wilk para los residuos del grupo A es la misma que para el grupo A (los residuos se calcularon como se indica aquí )
1 votos
¿Qué te hace pensar que cualquiera de las dos pruebas es "errónea"? Los valores p son variables aleatorias, y las diferentes pruebas de hipótesis no son perfectamente dependientes. Es perfectamente razonable que a veces uno rechace y otro no, incluso cuando se cumplen todos los supuestos de ambos.
0 votos
Hay dos cuestiones secundarias que merecen ser comentadas. Los grupos A B C se mezclan con fuentes de variación adicionales. Si un individuo no completara el grupo B, yo también lo omitiría de los otros grupos antes del análisis. Es una pena que no se identifiquen los individuos porque también hay que comprobar mínimamente las diferencias entre individuos y es posible que también haya dependencia. Supongo que esto es lo que @Motmot quería decir en una respuesta (ahora borrada).