14 votos

¿Qué prueba estadística utilizar para la prueba A/B?

Tenemos dos cohortes de 1000 muestras cada una. Medimos dos cantidades en cada cohorte. La primera es una variable binaria. La segunda es un número real que sigue una distribución de cola pesada. Queremos evaluar qué cohorte rinde más para cada métrica. Hay muchas pruebas estadísticas para elegir: la gente sugiere la prueba z, otros utilizan la prueba t y otros la U de Mann-Whitney.

  • ¿Qué prueba o pruebas debemos elegir para cada métrica en nuestro caso?
  • ¿Qué ocurre si una prueba sugiere una diferencia significativa entre cohortes y otra prueba sugiere una diferencia no significativa?

14voto

MrMeritology Puntos 1013

Dado que sus dos métricas son 1) binarias y 2) de cola pesada, debería evitar la prueba t, que asume distribuciones normales.

Creo que la U de Mann-Whitney es su mejor opción y debería ser suficientemente eficiente incluso si sus distribuciones fueran casi normales.

En cuanto a su segunda pregunta:

¿Qué ocurre si una prueba sugiere una diferencia significativa entre cohortes y otra prueba sugiere una diferencia no significativa?

Esto no es infrecuente si la diferencia estadística está al límite y los datos tienen distribuciones muestrales "desordenadas". Esta situación requiere que el analista cuidadosamente considerar todos los supuestos y limitaciones de cada prueba estadística, y dar el mayor peso a la prueba estadística que tenga el menor número de violaciones de los supuestos.

Tomemos el supuesto de la distribución normal. Hay varias pruebas de normalidad, pero eso no es el final de la historia. Algunas pruebas funcionan bastante bien en simétrico incluso si hay alguna desviación de la normalidad, pero no funcionan bien en distribuciones sesgadas.

Como regla general, le sugiero que no realice ninguna prueba en la que se infrinja claramente alguna de sus hipótesis.

EDITAR: Para la segunda variable, podría ser factible transformar la variable en una que se distribuya normalmente (o al menos se acerque) siempre que la transformación sea preservadora del orden. Es necesario tener una buena confianza en que la transformación produce una distribución normal para ambas cohortes. Si se ajusta la segunda variable a una distribución logarítmica normal, entonces una función logarítmica la transforma en una distribución normal. Pero si la distribución es Pareto (ley de potencia), entonces no hay transformación a una distribución normal.

EDITAR: Como se sugiere en este comentario debería considerar, sin duda, la posibilidad de Estimación bayesiana como alternativa a las pruebas t y otras pruebas de significación de hipótesis nulas (NHST).

9voto

Nikwin Puntos 2066

Para los datos de valor real, también puede considerar la posibilidad de generar su propia estadística de prueba basada en un bootstrap de sus datos. Este enfoque tiende a producir resultados precisos cuando se trata de distribuciones de población no normales, o cuando se intenta desarrollar un intervalo de confianza alrededor de un parámetro que no tiene una solución analítica conveniente. (Lo primero es cierto en tu caso. Sólo menciono lo segundo por el contexto).

Para tus datos de valor real, harías lo siguiente:

  1. Ponga en común sus dos cohortes.
  2. De la reserva, tome una muestra de dos grupos de 1000 elementos, con reemplazo.
  3. Calcula la diferencia de la media muestral entre los dos grupos.
  4. Repita los pasos 2 y 3 unos cuantos miles de veces para elaborar una distribución de estas diferencias.

Una vez que tengas esa distribución, calcula la diferencia de medias para tus muestras reales y calcula un valor p.

0voto

Richard Puntos 180

Secundo la respuesta de @MrMeritology. En realidad, me preguntaba si la prueba de MWU sería menos potente que la prueba de proporciones independientes, ya que los libros de texto de los que aprendí y solía enseñar decían que la MWU sólo puede aplicarse a datos ordinales (o de intervalo/ratio).

Pero los resultados de mi simulación, representados a continuación, indican que la prueba MWU es en realidad ligeramente más potente que la prueba de proporción, al tiempo que controla bien el error de tipo I (en la proporción poblacional del grupo 1=0,50).

enter image description here

La proporción de población del grupo 2 se mantiene en 0,50. El número de iteraciones es de 10.000 en cada punto. He repetido la simulación sin la corrección de Yate, pero los resultados son los mismos.

library(reshape)

MakeBinaryData <- function(n1, n2, p1){
  y <- c(rbinom(n1, 1, p1), 
        rbinom(n2, 1, 0.5))
  g_f <- factor(c(rep("g1", n1), rep("g2", n2)))
  d <- data.frame(y, g_f)
  return(d)
}

GetPower <- function(n_iter, n1, n2, p1, alpha=0.05, type="proportion", ...){
  if(type=="proportion") {
    p_v <- replicate(n_iter, prop.test(table(MakeBinaryData(n1, n1, p1)), ...)$p.value)
  }

  if(type=="MWU") {
    p_v <- replicate(n_iter, wilcox.test(y~g_f, data=MakeBinaryData(n1, n1, p1))$p.value)
  }

  empirical_power <- sum(p_v<alpha)/n_iter
  return(empirical_power)
}

p1_v <- seq(0.5, 0.6, 0.01)
set.seed(1)
power_proptest <- sapply(p1_v, function(x) GetPower(10000, 1000, 1000, x))
power_mwu <- sapply(p1_v, function(x) GetPower(10000, 1000, 1000, x, type="MWU"))

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X