6 votos

¿Algo más poderoso que la prueba de Kruskal-Wallis?

Tengo una muestra de una variable continua bajo 3 tratamientos y quiero evaluar las diferencias de tratamiento en la ubicación de las distribuciones subyacentes.

Una opción es realizar una prueba no paramétrica, como el Kruskal-Wallis ( kruskal.test en R).

Me pregunto si hay diferentes pruebas no paramétricas que puedo usar.

Ejemplo de simulación (en R ):

 n <- 10 # observations per treatment
y <- c(rchisq(n, df=1), rnorm(n), runif(n)) 
x <- rep(1:3, c(n, n, n))
kruskal.test(y ~ x, data=cbind(x, y))
 

4voto

JoanComasFdz Puntos 131

Creo que el problema que tienes es a la vez una de tamaño de la muestra y la naturaleza de la hipótesis alternativa para la prueba en particular que usted está utilizando. El test de Kruskal-Wallis intenta determinar si las distribuciones son iguales, o si uno domina estocásticamente a otro. Esto significa que la probabilidad de que una cantidad es mayor que $t$ es mayor que la de otro de distribución para cada $t$ (o menor precisión la probabilidad de que una cantidad es "grande" es más grande que otro). El punto es que el test de Kruskal-Wallis no es sensible a las diferencias de ningún tipo entre las distribuciones.

Si tomamos su ejemplo y la trama de la distribución empírica de las funciones que vamos a ver que los tiempos cuando la prueba se rechaza coinciden aproximadamente con los casos en los que la distribución empírica de las funciones no se superponen. Si usted está interesado no sólo en estocástica de la dominación, pero las diferencias en forma, así, usted podría considerar la posibilidad de una $k$-muestra de la prueba de Kolmogorov-Smirnov que se explica en este post: ¿hay múltiples versión de muestra o una alternativa a la prueba de Kolmogorov-Smirnov?.

library(ggplot2)

n <- 10
y <- c(sort(rchisq(n, df=1)), sort(rnorm(n)), sort(runif(n)) 
x <- rep(1:3, c(n, n, n))
# calculate empirical distribution functions
f <- rep(1:n / n, 3)
df <- data.frame(x, y, f)
rm(x, y, f, n)

kruskal.test(y ~ x, data=df)

# plot empirical distribution functions
qplot(y, f, data=df, geom="step", colour=as.factor(x))

enter image description here

3voto

AdamSane Puntos 1825

(Un poco menos formal que dsaxton del análisis... pero de una manera rápida para juzgar en este caso)

No está del todo claro para mí que estos son diferentes:

enter image description here

Aproximada de comparación por parejas, en el tamaño de la muestra 10, la incertidumbre en la mediana (ya que estamos buscando en boxplots aquí) es aproximadamente del tamaño que si las cajas se superponen, los dos no son significativamente diferentes (aunque depende en parte de que la relación se extiende).

[¿De dónde viene esta "en n=10 ver si los cuadros de superposición" idea? Ver el análisis aquí y, a continuación, la nota de la necesidad de coincidencia de que $1.58$ es casi exactamente $\sqrt{10}/2$, lo que significa que, al menos cuando la mediana es hacia el centro de la caja, el problema se reduce a la comprobación de la superposición de cajas. Me di cuenta de esto en los años 80 y es una regla de oro que vienen en muy práctico. No es difícil de ajustar para otros tamaños de muestra desde allí-por ejemplo, si n es de 40, la muesca intervalo será de la mitad de un cuadro de ancho]

Como podemos ver a continuación, las cajas para los grupos 1 y 3 se superponen casi por completo (en el que el intervalo para el grupo 3 es casi enteramente contenida en que para el grupo 1), y el grupo 2, sólo se superpone el grupo 3, mientras que los grupos 1 y 2 sólo no se superponen.

Ahora tenga en cuenta que la mediana para el grupo bajo (grupo 2) es alta en su caja, no simétrica, mientras que la mediana para el grupo alto (grupo 1) es baja, por lo que la indicación de una diferencia en la ubicación lo es menos fuerte allí.

Así que al menos buscando en la información de los boxplots solo, veo pocas razones para pensar que no hay necesariamente nada diferente de aquí, lejos de ser obvio, esto es bastante dudoso evidencia de una diferencia.

(De hecho, si se mira con muescas boxplots, todos los pares de notch intervalos se superponen sustancialmente.)

Así que si yo tuviera que adivinar sólo desde el boxplot, me gustaría pensar que la prueba de Kruskal-Wallis sería, tal vez, alrededor de la frontera de rechazo al 5% de nivel, pero no realmente esperar a rechazar. (Es posible que, dependiendo de las características específicas de la muestra", no acaba de hacer la misma cosa como la comparación de boxplots -- pero que realmente no debería sorprendernos si no)

Así que no es que el test de Kruskal-Wallis falta nada aquí-yo diría que su juicio acerca de lo que "parecen bastante diferentes" (como pone en el post original) está descalibrado para este tamaño de muestra pequeño. La indicación de la ubicación diferencia es simplemente que no queda claro en los datos.

Si usted está interesado en obtener más general de las diferencias de ubicación de las diferencias (tales como diferencias en la propagación o la forma), usted podría considerar la posibilidad de otras pruebas que este... pero con una clase más amplia de alternativas en n=10 en general, usted no será capaz de decir mucho.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X