7 votos

Valores p contradictorios para Anova y Kruskal-Wallis en los mismos datos: ¿Cuál es el correcto?

Tengo un archivo de datos con valores de duración de la tarea para tres grupos, y quiero determinar el efecto del grupo en la duración de la tarea (las tareas fueron ejecutadas por individuos; cada grupo tenía 7 individuos diferentes; cada individuo ejecutó las mismas tres tareas; y los datos de un individuo del grupo B no se registraron debido a un problema de configuración durante el experimento).

He creado a partir del archivo de datos el siguiente gráfico de caja (los puntos rojos son las medias, y "n" es el número de valores temporales en cada grupo):

enter image description here

y también el siguiente histograma (duración indicada en "min:seg"):

enter image description here

Mi muestra de datos por grupo es pequeña, y la "prueba de normalidad de Shapiro-Wilk" me dice que el grupo A no procede de una distribución normal, y que los grupos B y C proceden de una distribución normal. Como los grupos son pequeños y uno de ellos no es normal, decidí realizar el análisis de varianza de una vía de Kruskal-Wallis (no paramétrico) y su resultado fue:

Kruskal-Wallis rank sum test
data:  Duration by Group 
Kruskal-Wallis chi-squared = 4.2811, df = 2, p-value = 0.1176

por lo que debería aceptar que el efecto de los grupos no era significativo (valor p > 0,05).

Sin embargo, cuando ejecuté el Anova de una vía (comprobación de cordura por si acaso Kruskal-Wallis no era la opción correcta), el resultado de Anova fue:

ANOVA Duration ~ Group 
            Df    Sum Sq   Mean Sq F value  Pr(>F)   
Group        2 0.0003692 1.846e-04   6.473 0.00293 **
Residuals   57 0.0016257 2.852e-05                   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Tukey multiple comparisons of means
   95% family-wise confidence level

             diff          lwr           upr     p adj
B-A -0.0055763154 -0.009704328 -0.0014483027 0.0054132
C-A -0.0048032407 -0.008769307 -0.0008371744 0.0138750
C-B  0.0007730747 -0.003354938  0.0049010874 0.8943085

Es decir, el Anova devuelve un valor p < 0,05, es decir, dice que el efecto del grupo es significativo (en este caso, el grupo A era significativamente diferente respecto al B y al C).

Sin embargo, debido al pequeño número de muestras por grupo y al hecho de que un grupo no se distribuye normalmente, tiendo a aceptar el resultado de Kruskal-Wallis, pero no estoy seguro.

Así que mis preguntas son:

¿Debo aceptar el resultado de Kruskal-Wallis porque esta prueba es más adecuada que el Anova para este caso concreto?

¿Cómo debería haber utilizado el diagrama de caja y el histograma para decidir la prueba más adecuada?

Gracias

0 votos

Se supone que los residuos están distribuidos normalmente, ¿cuál es el resultado de la prueba de Shapiro-Wilks para los residuos?

0 votos

@Glen La prueba de Shapiro-Wilk para los residuos del grupo A es la misma que para el grupo A (los residuos se calcularon como se indica aquí )

1 votos

¿Qué te hace pensar que cualquiera de las dos pruebas es "errónea"? Los valores p son variables aleatorias, y las diferentes pruebas de hipótesis no son perfectamente dependientes. Es perfectamente razonable que a veces uno rechace y otro no, incluso cuando se cumplen todos los supuestos de ambos.

10voto

El diagrama de caja y el histograma indican por sí solos que los datos están sesgados, especialmente en el grupo A. La prueba de Shapiro-Wilk no tiene sentido. Con datos tan sesgados, el ANOVA no es realmente apropiado. La prueba de suma de rangos de Kruskal-Wallis se basa en los rangos, no en los valores absolutos, y no requiere normalidad, ni en las medidas ni en los residuos. Es la prueba más apropiada.

Una rápida búsqueda en Google te dirá que una requiere normalidad y otra no.

Una cosa que puedes considerar es que las duraciones son una representación arbitraria del tiempo. Por ejemplo, puedes indicar la duración de un evento como 2 s o puedes decir que el evento tiene una tasa de 0,5 eventos/s. Es exactamente lo mismo y ambos números pueden intercambiarse arbitrariamente para su representación. Sin embargo, las tasas tienden a ser mucho menos sesgadas y más apropiadas para el análisis estadístico. Es posible que sus tasas se distribuyan normalmente y en ese caso puede utilizar el ANOVA.

Si decides mirar los tipos, ten en cuenta que la dirección de la magnitud cambia, un valor de duración más alto = un valor de tipo más bajo. Algunas personas utilizan un tipo negativo sólo para evitar esa confusión.

0 votos

Si hice la transformación en ratios correctamente, en R los resultados de Shapiro-Wilk son: shapiro.test(1/A): W = 0.9064, p-value = 0.04657 shapiro.test(1/B): W = 0.9026, p-value = 0.06388 shapiro.test(1/C): W = 0.6018, p-value = 2.057e-06 Es decir, a alfa=0,05, la prueba de normalidad de Shapiro-Wilk falla para los grupos A y C, por lo que el Anova no es adecuado de nuevo...

1 votos

Probablemente no lo sea, pero ya indiqué que la prueba no es la mejor manera de saberlo, sólo hay que mirar los datos. En cualquier caso, tienes una solución no paramétrica razonable. Para resumir, no hay un buen "test" de normalidad porque incluso con datos muy normales siempre fallará si N es lo suficientemente alto. Sin embargo, tienes un N pequeño y la prueba refleja lo que verías en los gráficos de todos modos.

1 votos

(+1) El punto de considerar una escala transformada (aquí específicamente, el recíproco de la duración es una tasa o velocidad) es mucho más general y a menudo la solución intermedia, incluso ideal, (b) entre (a) trabajar con una prueba basada en la normalidad aunque los datos originales estén claramente sesgados y (c) saltar a una prueba de rango.

6voto

Eero Puntos 1612

La prueba de Kruskal-Wallis y la prueba Anova ponen a prueba hipótesis diferentes, ambas podrían ser correctas, las respuestas difieren porque responden a preguntas diferentes.

0 votos

Las pruebas abordan hipótesis ligeramente diferentes y está claro que las medianas están más cerca que las medias. Pero creo que la prueba ANOVA sigue siendo inadecuada para aplicarla a estos datos y no proporciona una respuesta correcta.

2 votos

Aunque los datos están claramente sesgados, con un tamaño de muestra de 60 (probablemente 20 por grupo) el CLT puede dar una aproximación suficientemente buena (multiplique el valor p por 10 y seguirá siendo significativo al nivel 0,05). Sería interesante examinar las pruebas de permutación y/o bootstrap para comparar las medias y las medianas de los grupos (aunque la prueba KW tampoco es técnicamente una prueba de medianas).

0 votos

@GregSnow A está muy sesgado porque una tarea llevó mucho más tiempo (los valores superiores a 21 min) que las demás en A. El efecto de A seguramente hace que los individuos tomen más tiempo en esa tarea en comparación con la misma tarea en B y C, en la que los individuos no hicieron el trabajo extra causado por el efecto del grupo A. Sin embargo, como Kruskal-Wallis compara las medianas (centralidad), y las duraciones de todas las demás tareas son parecidas entre los grupos, tiendo a aceptar el resultado de Kruskall-Wallis, sobre todo porque el tiempo extra (corrección de errores) de la tarea en el grupo A lo emplearían más tarde (en el descubrimiento de errores) los individuos de B y C.

1voto

Software Sainath Puntos 135

Hay que tener en cuenta dos cosas: en primer lugar, el ANOVA es robusto frente a la no normalidad si los tamaños de las muestras son iguales; cuanto mayor sea la diferencia en los tamaños de las muestras, menos fiable será; en segundo lugar, la prueba de K-W no es una prueba de medias o medianas; es realmente una prueba de similitud de distribuciones y, si las distribuciones son similares, puede interpretarse como una prueba de localización. En mi experiencia, la mayoría de la gente ignora que tanto la prueba de Mann-Whitney como la de K-W esperan (requieren) que los grupos que se comparan tengan distribuciones similares.

Hay varias opciones disponibles para su problema. Puede intentar una transformación de datos (por ejemplo, log) para poner los datos en una escala que produzca distribuciones normales en cada grupo. O bien, puede intentar ejecutar un ANOVA estándar después de reemplazar los datos con sus rangos. Ambos enfoques son eficaces cuando se violan los supuestos del ANOVA.

1voto

mat_geek Puntos 1367

Todas las distribuciones se solapan mucho. La prueba de Kruskal Wallis parece indicar que los centros de las distribuciones son casi iguales. La distribución del grupo está muy sesgada debido a varios valores extremadamente altos. Esto es lo que hace que la distribución no pase la prueba de Shapiro-Wilk. La prueba F del anova interpreta erróneamente que el grupo A tiene una media significativamente mayor porque "ignora" la asimetría. La prueba de Kruskal Wallis da la respuesta adecuada, mientras que la prueba F no lo hace.

0 votos

Cabe destacar que las pruebas ANOVA son robustas frente al supuesto de normalidad.

0 votos

Esto es cierto para las pruebas t, pero no para la prueba anova F. En relación con el comentario de Greg Snow, podría ser instructivo observar la distribución bootstrap de las medias de los grupos (en particular del grupo A) para comprobar su asimetría.

0 votos

Creo que tu punto sobre "La prueba F del anova interpreta erróneamente que el grupo A tiene una media significativamente mayor" tiene sentido en mi entorno, especialmente después de mi comentario a la respuesta de @GregSnow, donde analizo por qué Kruskal Wallis parece ser la opción más apropiada aquí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X