Me gustaría probar la hipótesis de que dos muestras se extraen de la misma población, sin hacer ninguna suposición sobre las distribuciones de las muestras o de la población. ¿Cómo debo hacerlo?
De la Wikipedia mi impresión es que la prueba U de Mann Whitney debería ser adecuada, pero no parece que me funcione en la práctica.
Para concretar he creado un conjunto de datos con dos muestras (a, b) que son grandes (n=10000) y extraídas de dos poblaciones que no son normales (bimodales), son similares (misma media), pero son diferentes (desviación estándar alrededor de las "jorobas"). Estoy buscando una prueba que reconozca que estas muestras no son de la misma población.
Vista del histograma:
Código R:
a <- tibble(group = "a",
n = c(rnorm(1e4, mean=50, sd=10),
rnorm(1e4, mean=100, sd=10)))
b <- tibble(group = "b",
n = c(rnorm(1e4, mean=50, sd=3),
rnorm(1e4, mean=100, sd=3)))
ggplot(rbind(a,b), aes(x=n, fill=group)) +
geom_histogram(position='dodge', bins=100)
Aquí está la prueba de Mann Whitney sorprendentemente (?) fallando en rechazar la hipótesis nula de que las muestras son de la misma población:
> wilcox.test(n ~ group, rbind(a,b))
Wilcoxon rank sum test with continuity correction
data: n by group
W = 199990000, p-value = 0.9932
alternative hypothesis: true location shift is not equal to 0
Ayuda ¿Cómo debo actualizar el código para detectar las diferentes distribuciones? (Me gustaría especialmente un método basado en la aleatorización genérica / remuestreo si está disponible).
EDITAR:
Gracias a todos por las respuestas. Estoy aprendiendo con entusiasmo más sobre el Kolmogorov-Smirnov, que parece muy adecuado para mis fines.
Entiendo que la prueba KS está comparando estas ECDF de las dos muestras:
Aquí puedo ver visualmente tres características interesantes. (1) Las muestras proceden de distribuciones diferentes. (2) A está claramente por encima de B en algunos puntos. (3) A está claramente por debajo de B en otros puntos.
La prueba KS parece ser capaz de comprobar la hipótesis de cada una de estas características:
> ks.test(a$n, b$n)
Two-sample Kolmogorov-Smirnov test
data: a$n and b$n
D = 0.1364, p-value < 2.2e-16
alternative hypothesis: two-sided
> ks.test(a$n, b$n, alternative="greater")
Two-sample Kolmogorov-Smirnov test
data: a$n and b$n
D^+ = 0.1364, p-value < 2.2e-16
alternative hypothesis: the CDF of x lies above that of y
> ks.test(a$n, b$n, alternative="less")
Two-sample Kolmogorov-Smirnov test
data: a$n and b$n
D^- = 0.1322, p-value < 2.2e-16
alternative hypothesis: the CDF of x lies below that of y
¡Esto es realmente genial! Tengo un interés práctico en cada una de estas características, por lo que es genial que la prueba KS pueda comprobar cada una de ellas.
0 votos
No es demasiado sorprendente que MW no rechace. Para una prueba unilateral prueba si Pr(a>b) < 0,05 donde a y b son miembros elegidos al azar de sus poblaciones.
1 votos
A veces se dice que la hipótesis de Mann-Whitney se refiere a la "localización" de los dos grupos, o algo parecido a una diferencia estocástica sistemática. En el caso de sus datos, ambos grupos están distribuidos simétricamente en torno a 75, por lo que M-W no debería encontrar una diferencia.
6 votos
Este es un buen ejemplo de la confusión que sembramos cuando no tenemos clara la hipótesis de una prueba. Por desgracia, a la gente se le enseña a utilizar una t -prueba para comparar dos grupos, sin pensar realmente que esta prueba compara dos significa mientras que hay una prueba de la mediana para comparar dos medianas , Mann-Whitney que compara otra cosa, regresión cuantílica para comparar otros percentiles, pruebas para comparar varianzas, Kolmogorov-Smirnov para comparar las distribuciones, etc... A veces nos limitamos a decir que queremos comparar dos "poblaciones" sin tener claro qué hipótesis queremos probar realmente.
0 votos
Reflexionando, parece que la página de Wikipedia del test M-W establece la hipótesis de forma muy clara y fue un malentendido (salto infundado) por mi parte pensar que esta hipótesis también implica que las muestras provienen de la misma distribución. De hecho, el problema se hace evidente cuando se comparan dos distribuciones diferentes que son simétricas alrededor del mismo punto central.