4 votos

¿Cómo comparar dos muestras no distribuidas normalmente con tamaños muy diferentes? (Mann-Whitney vs Aleatorización/Bootstrap)

Tal vez sea una pregunta muy básica, pero todavía no he encontrado una solución sencilla para este simple problema:

Quiero comparar dos muestras (digamos X e Y) para una variable continua que es no es normal distribuidos y probar si X e Y son significativamente diferentes. El tamaño de la muestra de X es N=81 y Y es N=5110 por lo que están bastante desequilibrados. Mi primer intento fue utilizar la prueba de Mann-Whitney (es decir, la prueba de rango con signo de Wilcoxon). Sin embargo, me molesta esta enorme diferencia en el tamaño de las muestras.

He pensado que algún tipo de método de aleatorización o bootstrap es una buena alternativa, pero no estoy seguro de que mi enfoque tenga sentido. Mi idea era obtener 1000 muestras aleatorias de tamaño 81 de Y y X y luego utilizar el Mann-Whitney para comparar ambas distribuciones. El método empírico Valor p sería la proporción de pruebas con Valor p < 0.05. I "R", he implementado de la siguiente manera:

X = data1 # sample size 81
Y = data2 # sample size 5510
R = 1000
alpha = numeric(R)

for(i in 1:R) {
    group1 = sample(X, replace=TRUE)
    group2 = sample(Y, size=81, replace=TRUE)
    alpha[i] = wilcox.test(group1, group2)$p.value
}

Empírico Valor p sería la proporción de p-valores < 0.05:

mean(alpha < 0.05)

¿Tiene sentido este enfoque? ¿Cómo puedo hacer esta prueba de hipótesis correctamente?

5voto

zowens Puntos 1417

No soy un gran experto en pruebas estadísticas, pero el enfoque que está considerando decididamente no no tiene sentido. Imagine que los grupos son efectivamente idénticos (es decir, que la hipótesis nula es verdadera). Entonces observará p<0,05 exactamente en el 5% de los casos y, por ejemplo, p<0,01 en el 1% de los casos (esos serían falsos positivos). Así que, siguiendo tu lógica, rechazarías la nula.

No conozco ningún problema con la prueba de Wilcoxon-Mann-Whitney en el caso de un número diferente de observaciones. Así que una opción que tienes es ejecutar la prueba ranksum como de costumbre, sin más complicaciones.

Sin embargo, si se siente preocupado por las muy diferentes $N$ puede intentar una sencilla prueba de permutación: juntar ambos grupos (obteniendo $81+5110=5191$ números) y seleccionar al azar $81$ como grupo A y todos los demás como grupo B. A continuación, tome la diferencia entre las medias (o medianas) de A y B (llamémosla $\mu$ ), y repetirlo muchas veces. Esto le dará una distribución $p(\mu)$ . Al mismo tiempo, para sus grupos reales X e Y tiene algún valor empírico fijo de $\mu^*$ . Ahora puede comprobar si $\mu^*$ se encuentra en el intervalo de percentil del 95% de $p(\mu)$ . Si no lo hace, puede rechazar la nulidad con p<0,05.

1voto

Horst Grünbusch Puntos 2742

Su enfoque no tiene sentido. La prueba habitual de Wilcoxon le responderá con gran potencia. Su enfoque pierde esta ventaja. Sin embargo, puede ser razonable tener miedo a un poder demasiado alto, porque incluso las diferencias irrelevantes se mostrarán significativas, lo que de hecho distraería al científico interesado en una declaración cualitativa relevante de una prueba.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X