20 votos

¿Hay una versión de múltiples muestras o alternativa al Test de Kolmogorov-Smirnov?

Estoy comparando la distribución de tamaños de árboles en seis pares de parcelas donde una recibió un tratamiento y la otra un control. Al usar una prueba de Kolmogorov-Smirnov en cada par de parcelas, encuentro que $p$ varía de $0.0003707$ a $0.75$. ¿Hay métodos apropiados para tratar con todas las réplicas juntas, como una extensión de la prueba KS para múltiples muestras, o hay una prueba de seguimiento adecuada? ¿O debería concluir algo como "La distribución de tamaños difiere significativamente ($p < 0.05$) en 2 pares de parcelas y marginalmente ($p = 0.59$) en un par de parcelas"?

3 votos

¿Qué es lo que quieres comparar acerca de estas distribuciones, que difieren en la tendencia central, o que difieren en la forma? Tiendo a pensar que KS se trata más sobre la forma / naturaleza de una distribución, pero algo como la prueba de Friedman puede determinar que las muestras difieren en la tendencia central.

0 votos

Schröer, G., & Trenkler, D. (1995). Distribuciones exactas y de randomización de las pruebas de Kolmogorov-Smirnov de dos o tres muestras. Estadística Computacional y Análisis de Datos, 20, 185–202.

16voto

Momo Puntos 5125

En realidad, hay varias pruebas KS de muestra múltiple. Por ejemplo, una Prueba de Kolmogorov-Smirnov de muestra r con $r\geq 2$ que, creo, tiene buen poder. Un preprint de ese hermoso artículo está disponible aquí. También conozco los Análogos de Muestra de las Pruebas Kolmogorov-Smirnov y Cramer-V. Mises (pero tienen menos poder según tengo entendido).

7 votos

Bueno, la desventaja de ese "hermoso" documento de Böhm y Hornik es que no hay una implementación disponible públicamente disponible según lo que puedo decir. Las matemáticas son lo suficientemente complejas como para que no quisieras implementarlas tú mismo. Envié correos a los autores y les pregunté pero no respondieron. ¡Ten en cuenta que Hornik es miembro del grupo de Desarrolladores Principales de R... Si alguien sabe de alguna implementación, por favor comparte un enlace aquí!

0 votos

¿Alguien hizo una implementación en R de esto?

11voto

Matt Ball Puntos 4929

Hay un paquete de R kSamples que te brinda, entre otras cosas, una prueba de Anderson-Darling de k muestras no paramétrica. La hipótesis nula es que todas las k muestras provienen de la misma distribución que no necesita ser especificada. Quizás puedas utilizar esto.

Pequeño ejemplo comparando muestras distribuidas Normal y Gamma escaladas de manera que tengan la misma media y varianza:

library("kSamples")
set.seed(142)
samp.num <- 100
alpha <- 2.0; theta <- 3.0  # Parámetros Gamma de forma y escala, utilizando la notación de Wikipedia
gam.mean <- alpha * theta # media de la Gamma
gam.sd <- sqrt(alpha) * theta # D.E. de la Gamma
norm.data <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)  # Normal con la misma media y D.E. que la Gamma
gamma.data <- rgamma(samp.num, shape=alpha, scale=theta)
norm.data2 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
norm.data3 <- rnorm(samp.num, mean=gam.mean, sd=gam.sd)
ad.same <- ad.test(norm.data,norm.data2,norm.data3) # "no significativo, p ~ 0.459"
ad.diff <- ad.test(gamma.data,norm.data2,norm.data3) # "significativo, p ~ 0.00066"

7voto

Eero Puntos 1612

Un par de enfoques:

Utilice los valores p pareados pero ajústelos para comparaciones múltiples utilizando algo como Bon Feroni o ajustes de tasa de descubrimiento falso (el primero probablemente será un poco conservador). Entonces puede tener la seguridad de que cualquier diferencia que siga siendo significativa probablemente no se deba a las pruebas múltiples.

Puede crear una prueba general al estilo de KS encontrando la mayor distancia entre cualquiera de las distribuciones, es decir, trazar todas las funciones de distribución empírica y encontrar la mayor distancia desde la línea más baja hasta la línea más alta, o tal vez la distancia promedio u otra medida significativa. Luego puede determinar si eso es significativo realizando una prueba de permutación: agrupe todos los datos en 1 grupo grande, luego divídalos aleatoriamente en grupos con los mismos tamaños muestrales que sus grupos originales, recalcule el estadístico en los datos permutados y repita el proceso muchas veces (999 aproximadamente). Luego vea cómo sus datos originales se comparan con los conjuntos de datos permutados. Si el estadístico de los datos originales cae en el medio de los permutados, entonces no se encuentran diferencias significativas, pero si está en el borde, o más allá de cualquiera de los datos permutados, entonces hay algo significativo ocurriendo (pero esto no le dice cuáles son diferentes). Probablemente debería probar esto con datos simulados donde sepa que hay una diferencia lo suficientemente grande como para ser interesante solo para verificar el poder de esta prueba para encontrar las diferencias interesantes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X