Estoy bastante confundido sobre la prueba de Mann Whitney, muchas afirmaciones que he leído dicen que prueba la igualdad de la distribución entre dos poblaciones y otras dicen que prueba sólo la media/mediana/tendencia central. He realizado algunas pruebas y muestra que sólo evalúa la tendencia central, no la forma. Muchos libros indican la igualdad de la distribución (pdf), ¿por qué? Por favor, explíquelo.
------Declaraciones de igualdad de distribución-------
-
El libro de Sheldon Ross Supongamos que se consideran dos métodos diferentes de producción para determinar si los dos métodos dan lugar a artículos estadísticamente idénticos. Para atacar este problema, dejemos que X1,...,Xn, Y1,...,Ym denoten muestras de los valores medibles de los artículos por el método 1 y el método 2. Si dejamos que F y G, ambas supuestas como continuas, denoten las funciones de distribución de las dos muestras, respectivamente, entonces la hipótesis que deseamos probar es H0:F=G. Un procedimiento para probar H0 es la prueba de Mann-Whitney. Su declaración implica la igualdad de pdf a la derecha.
-
Algunas notas de Caltech Ahora supongamos que tenemos dos muestras. Queremos saber si podrían haber sido extraídas de la misma población o de poblaciones diferentes y, en este último caso, si difieren en alguna dirección predicha. Una vez más, supongamos que no sabemos nada sobre las de las distribuciones de probabilidad en el sentido de que necesitamos pruebas no paramétricas. Prueba U de Mann-Whitney (Wilcoxon). Hay dos muestras, A (m miembros) y B (n miembros); H0 es que A y B provienen de la misma distribución o tienen la misma población madre. Proceder de la misma población implica los mismos pdfs .
-
Wikipedia Esta prueba puede utilizarse para investigar si dos muestras independientes fueron seleccionadas de poblaciones que tienen la misma distribución.
-
No paramétrico Pruebas estadísticas La hipótesis nula es H0: = 0; es decir, no hay ninguna diferencia entre las funciones de distribución F y G. Pero cuando uso F=N(0,10) y G=U(-3,3) y hago la prueba, el valor p es muy alto. No pueden ser más diferentes excepto E(F)=E(G) y simétrico.
----- Declaraciones de igualdad media/mediana-------
- Artículo La prueba U de Mann-Whitney puede utilizarse cuando el objetivo es mostrar una diferencia entre dos grupos en el valor de una variable ordinal, de intervalo o de razón. Es la versión no paramétrica de la prueba t. muchos otros como ese .
-
Resultados de las pruebas
pkg load statistics #octave package x = normrnd(0, 1, [1,100]); #100 N(0,1) y1 = normrnd(0, 3, [1,100]); #100 N(0,3) y2 = normrnd(0, 20, [1, 100]); #100 N(0,20) y3 = unifrnd(-5, 5, [1,100]); #100 U(-5,5) [p, ks] = kolmogorov_smirnov_test(y1, "norm", 0, 1) #KS test if y1==N(0,1) p = 0.000002; #y of N(0,3) not equal to N(0,1) [p, z] = u_test(x, y1); #Mann-Whitney of x~N(0,1) vs y~N(0,3) p = 0.52; #null accepted [p, z] = u_test(x, y2); #Mann-Whitney of x~N(0,1) vs y~N(0,20) p = 0.32; #null accepted [p, z] u_test(x, y3); #Mann-Whitney of x~N(0,1) vs y~U(-5,5) p = 0.15; #null accepted
Apparently, Mann-Whitney doesn't test pdf equality
-------Confusing---------
- Métodos estadísticos no paramétricos, 3ª edición No entiendo cómo su H0: E(Y)-E(X) = 0 = sin desplazamiento, puede deducirse de (4.2) que parece sugerir la igualdad de pdf (momentos superiores iguales) excepto el desplazamiento.
- Artículo La prueba puede detectar diferencias en la forma y la dispersión, además de las diferencias en las medianas. Las diferencias en las medianas de la población suelen ir acompañadas de diferencias igualmente importantes en la forma. ¿Realmente? ¿Cómo?... confundido.
Reflexiones posteriores
Parece que muchos apuntes enseñan a MW de una manera que se presenta como un pato, ya que si sólo nos centramos en los comportamientos clave de un pato (graznar=pato, nadar=forma), MW parece un pato (prueba de cambio de ubicación). La mayor parte de las veces, un pato y el pato donald no se comportan de forma muy diferente, por lo que la descripción de MW parece buena y fácil de entender; pero cuando el pato donald domina a un pato sin dejar de graznar como un pato, MW puede mostrar su importancia, desconcertando a los alumnos desprevenidos. No es culpa de los alumnos, sino un error pedagógico al afirmar que el pato donald es un pato sin aclarar que a veces puede no ser un pato.
Además, mi sensación es que en las pruebas de hipótesis paramétricas, las pruebas se introducen con su propósito enmarcado en $H_0$ , lo que hace que el $H_1$ implícita. Muchos autores pasan a las pruebas no paramétricas sin destacar primero las diferencias en la obtención de las probabilidades de las pruebas (permutando las muestras X Y bajo $H_0$ ), por lo que los estudiantes siguen diferenciando las pruebas mirando $H_0$ .
Al igual que se nos enseña a utilizar la prueba t para $H_0:\mu_x = k $ o $H_0: \mu_x = \mu_y$ y la prueba F para $H_0: \sigma_x^2 = \sigma_y^2$ con $H_1: \mu_x \ne \mu_y$ y $H_1: \sigma_x^2 \ne \sigma_y^2 $ implícita; por otro lado, tenemos que ser explícitos sobre lo que probamos en $H_1$ como $H_0: F=G$ es trivialmente cierto para todas las pruebas de naturaleza de permutación. Así que cuando en lugar de ver $H_0: F=G$ y pensar automáticamente en $H_1: F \ne G$ por lo que es una prueba K-S, más bien deberíamos prestar atención a la $H_1$ para decidir qué es lo que se analiza ( $F\ne G, F>G $ ) y elegir una prueba (KS, MW) en consecuencia.