2 votos

¿La prueba AB no es significativa en las pruebas estadísticas, pero sí debido al tamaño de la muestra?

Estoy realizando pruebas A/B en las miniaturas de YouTube utilizando software propio. Después de solo dos días (uno con una miniatura y otro con la otra), mis resultados favorecen a la nueva miniatura con un nivel de confianza superior al 96 %.

Sin embargo, sólo han pasado dos días y los tamaños de las muestras son lo que yo diría pequeños. Me pareció impar así que lo corrí muy rápido y mi valor p fue 0.0706 lo que muestra que no fue significativo.

Datos para A

Visitantes: 24

Conversiones: 6

Datos para B

Visitantes: 29

Conversiones: 2

Pregunté cuál es la causa de las discrepancias entre los cálculos anteriores cuando era escéptico y recibí una respuesta de un usuario (la empresa no ha respondido a mi ticket)

Las pruebas A/B de TubeBuddy simplemente alternan las miniaturas cada día hasta que alcanza significación estadística (si esa es la opción que usted seleccionado). Usted realmente no necesita una prueba de dos muestras porque la muestra tamaño de la muestra en sí determina si es significativo.

Pero si tiene curiosidad por saber si el muestreo que formaron las dos grupos causó que los resultados estuvieran sesgados, también puede ejecutar la prueba prueba de nuevo para ver si se obtiene el mismo resultado.

Todavía me cuesta entender cómo es significativo y qué quiere decir con que el tamaño de la muestra lo hace significativo cuando tengo una muestra tan pequeña. Parece contraintuitivo. ¿Qué es lo que no ¿Consiguiendo? (¿Explicarlo como si tuviera cinco años?)

3voto

manku Puntos 111

Curiosa declaración: "...[E]l propio tamaño de la muestra determina si es significativa". Un cálculo de la potencia y el tamaño de la muestra puede darle una pista sobre el tamaño de la muestra necesario para detectar una diferencia concreta entre las "miniaturas" A y B, siempre que esa diferencia sea real. Sin embargo, si realmente no hay diferencia entre A y B, no se puede esperar obtener un resultado significativo aumentando el tamaño de la muestra.

Usando, prop.test en R sobre los datos que muestras, obtengo el resultados que se muestran a continuación.

prop.test(c(6, 2), c(24, 29))

        2-sample test for equality of proportions 
        with continuity correction

data:  c(6, 2) out of c(24, 29)
X-squared = 2.0942, df = 1, p-value = 0.1479
alternative hypothesis: two.sided
95 percent confidence interval:
  -0.05329726  0.41536622
sample estimates:
    prop 1     prop 2 
0.25000000 0.06896552 

Warning message:
In prop.test(c(6, 2), c(24, 29)) :
  Chi-squared approximation may be incorrect

Aquí hay dos cuestiones: (a) Mi valor P es el doble el suyo, tal vez porque hice una prueba de dos colas. Usted no dijo nada sobre esperar de antemano que la primera proporción de conversiones sería mayor que la segunda. (b) El tasas de conversión son bastante pequeñas; en consecuencia, el número de conversiones es demasiado pequeño para un valor P.

En R, prop.test es esencialmente una prueba chi-cuadrado sobre un $2 \times 2$ tabla de recuentos, en la que las filas son recuentos para A/B y las columnas son para conversiones Sí/No. Como sigue:

a = c(6,18);  b = c(2,27)
TAB = rbind(a,b);  TAB
  [,1] [,2]
a    6   18
b    2   27
chisq.test(TAB)

        Pearson's Chi-squared test 
        with Yates' continuity correction

data:  TAB
X-squared = 2.0942, df = 1, p-value = 0.1479

Warning message:
In chisq.test(TAB) : 
 Chi-squared approximation may be incorrect

El mensaje de advertencia se activa porque algunos de los recuentos esperados en el cálculo del estadístico chi-cuadrado son inferiores a $5.$ Estos son los recuentos previstos.

chisq.test(TAB)$exp
      [,1]     [,2]
a 3.622642 20.37736
b 4.377358 24.62264
Warning message:
In chisq.test(TAB) : 
 Chi-squared approximation may be incorrect

Tal y como se implementa en R, se puede utilizar el parámetro sim=T para obtener un valor P posiblemente más útil. Sin embargo, para sus datos, el valor P más exacto sigue sin indica una diferencia entre A y B.

chisq.test(TAB, sim=T)

        Pearson's Chi-squared test 
        with simulated p-value 
        (based on 2000 replicates)

data:  TAB
X-squared = 3.3582, df = NA, p-value = 0.1149

En resumen: (a) Puede haber una diferencia significativa en de conversión entre A y B y usted no dispone de tamaños de muestra suficientemente grandes para detectar esa diferencia. Otra posibilidad es que en realidad no haya significativa.

Sus datos muestran que utilizó 53 sujetos en su trabajo. Si tus datos dan una pista útil sobre las proporciones (algo así como 25% frente a 7%), supongo que la repetición de su trabajo con el triple o el cuádruple de sujetos. suficiente potencia para encontrar una diferencia significativa. Pero no hay garantías al respecto. A continuación se muestra un resultado de Minitab de un cálculo de "potencia y tamaño de muestra" posiblemente relevante.

Power and Sample Size 

Test for Two Proportions

Testing comparison p = baseline p (versus )
Calculating power for baseline p = 0.07
 = 0.05

              Sample  Target
Comparison p    Size   Power  Actual Power
        0.25     105    0.95      0.950327
        0.30      72    0.95      0.952430
        0.35      52    0.95      0.950074
The sample size is for each group.

(b) En mi humilde opinión, parece que hay poca comunicación entre usted y el "usuario" que trató de ayudar.

(c) Si tu suerte a la hora de obtener ayuda útil de un técnico de una empresa de software no es mejor que la mía, yo no lo haría. esperaría que admitieran pronto que algo va mal con su software, su documentación o sus consejos. consejos.

2voto

Björn Puntos 457

Creo que estás haciendo una prueba estadística cuestionable aquí. Lo que ocurre en un día concreto puede estar relacionado. Por ejemplo, el día 1 es domingo, así que la gente tiene mucho tiempo y hace clic en las cosas y convierte, el día 2 es lunes y la gente está más ocupada y no lo hace. Esto no quiere decir que lo que hiciste el día 1 sea mejor que lo que hiciste el día 2. Un análisis sensato en este sentido debería tener en cuenta la variabilidad diaria (es decir, una simple comparación de proporciones probablemente sea inadecuada). Por ejemplo, una regresión logística de efectos aleatorios con un efecto aleatorio del día en el intercepto podría ser una opción.

Asignar aleatoriamente una estrategia a unos usuarios y otra a otros (el mismo día) suele ser mejor. Alternativamente, si tiene suficientes días que esté dispuesto a esperar, asigne aleatoriamente los días (quizá en bloques para no tener tandas excesivamente largas con un solo enfoque). Alternar la asignación puede estar bien, pero en algunas circunstancias puede tener problemas que la aleatorización no tiene.

Por último, el planteamiento de la empresa de seguir avanzando hasta obtener significación invalida la prueba de hipótesis y, si se avanza lo suficiente, siempre se alcanzará la significación con este planteamiento, aunque en realidad no haya absolutamente ninguna diferencia.

P.D.: No sé qué quiere decir con "...más de un 96% significativo". PPS: Tampoco tengo ni idea de lo que la empresa está hablando con "Usted realmente no necesita una prueba de dos muestras porque el tamaño de la muestra en sí determina si es significativo." Tal vez haya algo significativo en el fondo de lo que intentan decir, pero en realidad no tiene ningún sentido tal como está escrito.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X