Tal vez sea una pregunta muy básica, pero todavía no he encontrado una solución sencilla para este simple problema:
Quiero comparar dos muestras (digamos X e Y) para una variable continua que es no es normal distribuidos y probar si X e Y son significativamente diferentes. El tamaño de la muestra de X es N=81 y Y es N=5110 por lo que están bastante desequilibrados. Mi primer intento fue utilizar la prueba de Mann-Whitney (es decir, la prueba de rango con signo de Wilcoxon). Sin embargo, me molesta esta enorme diferencia en el tamaño de las muestras.
He pensado que algún tipo de método de aleatorización o bootstrap es una buena alternativa, pero no estoy seguro de que mi enfoque tenga sentido. Mi idea era obtener 1000 muestras aleatorias de tamaño 81 de Y y X y luego utilizar el Mann-Whitney para comparar ambas distribuciones. El método empírico Valor p sería la proporción de pruebas con Valor p < 0.05. I "R", he implementado de la siguiente manera:
X = data1 # sample size 81
Y = data2 # sample size 5510
R = 1000
alpha = numeric(R)
for(i in 1:R) {
group1 = sample(X, replace=TRUE)
group2 = sample(Y, size=81, replace=TRUE)
alpha[i] = wilcox.test(group1, group2)$p.value
}
Empírico Valor p sería la proporción de p-valores < 0.05:
mean(alpha < 0.05)
¿Tiene sentido este enfoque? ¿Cómo puedo hacer esta prueba de hipótesis correctamente?