8 votos

Extraño resultado de la post-hoc de la prueba

Tengo los datos para una prueba en tres grupos. La medición de la variable es la relación de escala. El código R es

g1a<-c(7, 3, 40)
g2a<-c(1,1,2)
g3a<-c(0,0,0)

Dado que la muestra es pequeña y la normalidad no puede ser garantizada, puedo ejecutar un test de Kruskal Wallis para comprobar la significación:

l<-list(g1a,g2a,g3a)
kruskal.test(l)

El p-valor es 0.02336, lo cual es bueno.

Ahora me encuentro un post-hoc de la prueba, mediante la U de Mann-Whitney:

wilcox.test(g1a,g2a,paired=FALSE,exact=TRUE)
wilcox.test(g2a,g3a,paired=FALSE,exact=TRUE)
wilcox.test(g1a,g3a,paired=FALSE,exact=TRUE)

Todas las p-valores están por encima de 0.05 (0.07652, 0.0636, 0.05935). Esto es muy extraño. No debería uno de estos exámenes dan mucho menor p-valor? Sobre todo porque yo tendría que usar algún tipo de corrección para dar cuenta de las múltiples comparaciones post-hoc de la prueba. En otras palabras: ¿cómo puedo interpretar este resultado?

8voto

bheklilr Puntos 113

Piénsalo de esta manera - en general, hay una diferencia significativa, pero es un poco difícil decir exactamente cuales dos son significativamente diferentes. Como alternativa, considere la posibilidad de tener tres valores de p inferiores a 0,1 (incluso a pesar de que no son independientes el uno del otro) - bastante pequeño, ¿verdad? Así que, de nuevo en términos generales, se podría sospechar que algo importante está en los datos, sin ser capaz de decir exactamente donde.

Su tamaño pequeño de la muestra no ayudan; significa, en los poderes de sus exámenes son muy bajos, y también limitar severamente a qué tipo de valores de p se puede obtener, como muestra el siguiente ejemplo:

> g1a <- rnorm(3,0,1)
> g2a <- rnorm(3,2.5,1)
> g3a <- rnorm(3,5,1)
> 
> y <- list(g1a,g2a,g3a)
> y
[[1]]
[1] -2.31356435 -0.09903136 -0.42037052

[[2]]
[1] 2.806082 2.799857 3.383844

[[3]]
[1] 6.543636 6.845559 4.838341

> kruskal.test(y)

    Kruskal-Wallis rank sum test

data:  y 
Kruskal-Wallis chi-squared = 7.2, df = 2, p-value = 0.02732

Tan lejos, tan bueno. En las tres pruebas de Wilcoxon:

> wilcox.test(g1a,g2a,paired=FALSE,exact=TRUE)

    Wilcoxon rank sum test

data:  g1a and g2a 
W = 0, p-value = 0.1
alternative hypothesis: true location shift is not equal to 0 

> wilcox.test(g2a,g3a,paired=FALSE,exact=TRUE)

    Wilcoxon rank sum test

data:  g2a and g3a 
W = 0, p-value = 0.1
alternative hypothesis: true location shift is not equal to 0 

> wilcox.test(g1a,g3a,paired=FALSE,exact=TRUE)

    Wilcoxon rank sum test

data:  g1a and g3a 
W = 0, p-value = 0.1
alternative hypothesis: true location shift is not equal to 0 

Los tres valores de p en 0.1, pero no podemos llegar más extrema - W = 0 - tan evidente que nos hemos topado con un tamaño de muestra límite impuesto en la p-valores.

4voto

GenericTypeTea Puntos 27689

Tu error está en la elección de la Wilcoxon/u de Mann-Whitney rank-sum pruebas como la de tu post hoc de ensayos tras el rechazo de la prueba de Kruskal-Wallis. La adecuada pos hoc de la prueba de Dunn prueba* que correctamente (1) cuentas por agrupado varianza asumida por la hipótesis nula, y (2) utiliza las mismas filas de sus datos tal como se utiliza en la construcción de la prueba de Kruskal-Wallis. La vainilla rank-sum pruebas implica separar las estimaciones de la varianza para cada uno de los pares de la prueba, y de ignorar la clasificación del total del conjunto de datos tal como se realizó con una prueba de Kruskal-Wallis.

Dunn prueba es implementado por el programa Stata en el dunntest paquete (dentro de Stata tipo net describe dunntest, from(http://www.doyenne.com/stata)), y para R en la dunn.prueba de paquete. No estoy seguro acerca de las implementaciones de SAS.


Referencia

Dunn, O. J. (1964). Comparaciones múltiples utilizando el rango sumas. Technometrics, 6(3):241-252.

* Hay algunos mucho menos usado alternativas a Dunn prueba incluida la Conover-Iman (como Dunn, pero basado en la t de la distribución, en lugar de la z de la distribución, implementado por el programa Stata en el conovertest paquete, y para R en la conover.prueba de paquete), y el Dwass-Acero-Citchlow-Fligner pruebas.

2voto

mat_geek Puntos 1367

Lo mismo puede suceder con la prueba de ANOVA cuando distribuciones normales puede ser asumida. Las diferencias entre los tres es que al parecer sólo lo suficientemente grande como para ver que ellos son diferentes pero no es lo suficientemente grande como para distinguir la diferencia entre los pares. Nota el general p-valor es un poco menor que 0,05 y cada uno de los pares de todas las pruebas ligeramente mayor que 0.05. Con una muestra de mayor tamaño que usted podría encontrar que cada uno es diferente de los otros dos. Pero la inferencia de aquí es que las medias son diferentes, pero no está seguro de que el par(s) se puede atribuir esto.

1voto

Dayson Puntos 161

Este es un problema bien conocido en dos etapas comparaciones, observado por ejemplo, ya por Gabriel [Gabriel KR (1969) Simultánea de los procedimientos de prueba - la teoría de las comparaciones múltiples. Los Anales De La Estadística Matemática 40(1):224-250].

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X