11 votos

Es la prueba de Wilcoxon el derecho de prueba para ver si el total de las donaciones se diferencian?

Antecedentes:

El software le pide a los usuarios para opcional donaciones de cualquier cantidad. Me separé de la prueba de la donación de las solicitudes de información entre usuarios a encontrar la mejor forma de pedir: 50% solicitud get versión 1, el 50% solicitud de la versión 2, y vemos que uno hace mejor.

Casi todos los usuarios dan $0, pero un par de donar. Los resultados podría tener este aspecto:

         Number of users  Number of donations   Dollar amounts donated
GROUP A  10,000           10                    40,20,20,20,15,10,10,5,5,5
GROUP B  10,000           15                    50,20,10,10,10,10,10,10,5,5,5,5,5,5,5

Quiero saber si un grupo es un ganador, o si es un empate, o si tenemos una muestra más grande para estar seguro. (En este ejemplo, un método simple para la discusión, casi sin duda necesita una muestra más grande para obtener resultados significativos.)

Lo que yo medida ya:

  1. Lo hizo un grupo tienen un significativamente mayor número de donaciones? Cuánto más grande? Yo medida de este valor de p y el intervalo de confianza utilizando el ABBA Chincheta herramienta, usando sólo el número de donaciones y el número de usuarios, ignorando los montos en dólares. Su metodología descrita en la sección "¿cuáles son los subyacentes de las estadísticas?" de ese vínculo. (Es por encima de mi cabeza, pero creo que calcula el intervalo de confianza al tomar la diferencia entre las tasas de donación como normal de las variables aleatorias en el Agresti-Couli intervalo.)
  2. Lo hizo un grupo de donar un significativamente diferente cantidad de dinero total? Yo medida de este valor de p mediante la realización de una prueba de permutación: repetidamente volver a revolver todos los 2N sujetos en 2 N-grupos de sujetos, la medición de la diferencia en el total de dinero entre los grupos en cada tiempo, y la búsqueda de la proporción de mezcla con una diferencia >= la diferencia observada. (Creo que esto es válido basado en este este de Khan Academy video haciendo la misma cosa para galletas en lugar de dólares.)

R wilcox.prueba:

Un par de preguntas acerca de la wilcox.test() en R:

  1. Si me alimentados wilcox.test(paired=FALSE) por encima de la tabla de datos, habría que responder a nuevas preguntas que no ha respondido por mi de herramientas de arriba, me da más elementos con los que decidir si seguir corriendo mi prueba/declara un ganador/declara un empate?
  2. Si es así, ¿qué pregunta exacta sería la respuesta?

11voto

Sean Hanley Puntos 2428

Si utilizas wilcox.test() , con el argumento de paired (tenga en cuenta que esta es menor caso, y que R es sensible a mayúsculas y minúsculas) para FALSE, está ejecutando un test de Mann-Whitney $U$-prueba. Esto es una prueba de dominancia estocástica. Si las distribuciones son iguales, y eligió una observación de cada versión al azar, la observación a partir de la versión 2 tendría un 50%-50% de probabilidad de ser más alta que la observación a partir de la versión 1. Por otro lado, el valor extraído de la versión 2 tienen más de un 50% de probabilidad de que sea mayor (menor que) el valor de la versión 1. Esto es de dominancia estocástica. Nada se dice acerca de cuánto más o menos, sólo que es mayor o menor.

Que no me parecen un buen ajuste para sus objetivos. Desea que el más total de dinero, que puede ser entendido como el más grande de la media de la donación veces el número de usuarios. Es posible que, debido al sesgo, que una versión puede tener la mayor media / total, pero que la otra versión es estocásticamente mayor. (Si ese fuera el caso, le gustaría que la versión anterior.) Porque esto es lo que usted desea, una prueba que es específico de ese aspecto de la distribución es la más adecuada para usted.

Reconozco que sus datos no son remotamente normal, y por lo tanto, el $t$-prueba (que podría ser lo que la mayoría de la gente pensaría de la primera para la comparación de dos grupos), sería inapropiado. Dadas dos continuo, pero no normales, los grupos, la mayoría de la gente podría, asimismo, ir automáticamente con el test de Mann-Whitney. En tu caso, me gustaría ir con una prueba de permutación, por la razón anterior. (Deduzco que esto es lo que hizo, si he entendido correctamente). Una prueba de permutación es válido aquí, porque asignados al azar a los usuarios a los dos grupos; por lo tanto, son intercambiables.

Para realizar una prueba de permutación, sólo shuffle de la agrupación de indicadores y calcular los medios y una diferencia entre los medios. Haciendo esto muchas veces le permitirá crear una distribución de muestreo de la diferencia entre los medios. Usted puede comparar su diferencia observada para la distribución de muestreo. Para una prueba de dos colas, tomar la menor proporción más allá de su diferencia y se multiplica por dos. El producto es directamente interpretable como una $p$-valor. Aquí está un ejemplo realizado con los datos:

A            = c(rep(0, 9990), 40,20,20,20,15,10,10,5,5,5)
B            = c(rep(0, 9985), 50,20,10,10,10,10,10,10,5,5,5,5,5,5,5)
realized.dif = mean(B)-mean(A);  realized.dif  # [1] 0.0015

set.seed(6497)
donations = stack(list(A=A, B=B))
values    = donations$values
ind       = donations$ind
difs      = vector(length=1000)
for(i in 1:1000){
  ind     = sample(ind)
  difs[i] = mean(values[ind=="B"])-mean(values[ind=="A"])
}
difs = sort(difs)
mean(difs>=realized.dif)    # [1] 0.459  # a 1-tailed test, if Ha: B>A a-priori
mean(difs>=realized.dif)*2  # [1] 0.918  # a 2-tailed test

En cuanto a la primera cuestión, es decir, 'la versión que dio un mayor número de donaciones', mientras que reconozco que todo el mundo le encanta ABBA, usted puede hacer esto en R como bueno. Me gustaría utilizar una $z$-prueba de la diferencia de dos proporciones. En R, que prop.test(). Aquí es un ejemplo del uso de sus datos:

prop.test(rbind(c(10, 9990),
                c(15, 9985) ))
#  2-sample test for equality of proportions with continuity correction
# 
# data:  rbind(c(10, 9990), c(15, 9985))
# X-squared = 0.6408, df = 1, p-value = 0.4234
# alternative hypothesis: two.sided
# 95 percent confidence interval:
#   -0.0015793448  0.0005793448
# sample estimates:
# prop 1 prop 2 
# 0.0010 0.0015 

7voto

Rosstified Puntos 2327

@gung la respuesta es correcta. Pero me gustaría añadir que, dado que sus datos podrían estar sesgados, con una enorme cola derecha, la media puede no ser robusto y, como tal, puede no ser la "derecha" índice de la representación de la centralidad de su distribución. Por lo tanto, me gustaría probar también con la solución más robusta, tales como medianas o trunca medios.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X