Dos grandes conjuntos de datos de pacientes (grupo a: n = 100.000; serie B: n = 700,000) se comparan con respecto a su longitud de hospital-de-la estancia (LOS). La variable de LOS que se reporta como un entero en el almacén de datos, normalmente entre 2 y 7, por lo que decenas de miles de pacientes en cada grupo tendrá el mismo valor para LOS. ¿El grupo tiene una diferente de LOS del grupo B? Las desviaciones de los de los dos grupos son muy diferentes el uno del otro; ambos tienen una distribución sesgada.
En la literatura médica que uno ve típicamente una de Wilcoxon-Mann-Whitney prueba que se utilizan en la comparación de los de los dos grupos y los informes como una prueba de la diferencia entre las medianas. Por lo general, debido a la desigualdad de la varianza y el tamaño de la muestra, tal enfoque no se ajusta a lo que llamaron "cambio de modelo".
Quiero evitar el uso de este popular sino defectuoso planteamiento, pero tengo dos preguntas:
Si estoy usando la W-M-W prueba como se pretendía originalmente (prueba de la hipótesis nula Prob(x < Y) = 0.5), la desigualdad de las muestras de tamaños (de 100.000 frente a los 700.000) o las varianzas desiguales invalidar el resultado de la prueba?
Hay un buen test para la comparación de la mediana de LOS de los dos grupos? Resulta que el grupo a tiene una mediana de LOS de 4 días, mientras que el grupo B tiene una mediana de LOS de 5 días, por lo que a priori, dado el gran tamaño de la muestra, uno podría esperar que los dos grupos difieren significativamente en sus mediana de LOS.