5 votos

Calcular cuándo se alcanzará la significación en una prueba A/B ( $\chi^2$ prueba de la diferencia entre dos proporciones)

Soy un experto en marketing que intenta comprender las matemáticas que intervienen en las pruebas A/B. He encontrado un herramienta que calcula cuántas muestras más se necesitan para alcanzar la significación en una prueba ya iniciada. Cuando introduce los resultados de la prueba hasta el momento, le indica cuántas muestras más son necesarias para alcanzar el nivel de confianza del 90%.

Si introduzco los siguientes datos en el formulario:

           Visitors    Goals
Group A:        200       25
Group B:        190       26

La herramienta me dice que necesito unas 8405 muestras más para alcanzar la significación con un nivel de confianza del 90%.

Hasta ahora lo he hecho:

  • Lea la explicación del tamaño de la muestra en un par de libros de estadística.
  • Manipulación de ecuaciones de análisis de potencia en papel.
  • Experimentar con power.prop.test() en R .

No veo cómo calcular esto. ¿Alguien puede ayudarme?

3voto

Jared Farrish Puntos 120

No puedo reproducir las cifras exactas que arroja esta calculadora, pero el resultado se parece bastante al que se obtendría con power.prop.test() para una potencia del 50% en una prueba de dos caras, utilizando las estimaciones muestrales de las dos proporciones, p. ej.

power.prop.test(p1=26/190, p2=25/200, power=.5, sig.level=.1)

(El resultado es 4390 por grupo, así que 8780 en total o 8390 visitantes más de los que ya tiene, la diferencia de 15 observaciones podría explicarse fácilmente por un error de redondeo en alguna parte -incluso en el sitio web- o algún otro detalle computacional).

Si esto es realmente lo que es, parece que hay un defecto fundamental en el enfoque, ya que asume implícitamente que las proporciones que obtuviste de tu muestra son realmente las proporciones reales, lo que parece anular todo el sentido de hacer un experimento en primer lugar. De hecho, no se sabe si la diferencia "alcanzará" la significación, ya que podría muy bien descubrir que los resultados son muy diferentes después de haber recogido más datos (tal vez la diferencia sea menor o incluso vaya en la otra dirección).

Intuitivamente, esto debería ser fácil de comprender si se tiene en cuenta que el tamaño de muestra recomendado es más de 20 veces el tamaño de la muestra que ya se tiene. Los datos que tiene se verán empequeñecidos por estos nuevos datos y, en efecto, tendrá un experimento completamente nuevo que podría ir en cualquier dirección (especialmente porque ya está claro que el efecto no es muy fuerte y los datos que ya tiene no son concluyentes; de lo contrario, ya podría rechazar la hipótesis nula).

Para una idea similar, expresada con más cuidado en un contexto completamente diferente, puede consultar Kraemer H.C., Mintz J., Noda A., Tinklenberg J., & Yesavage J.A. (2006). Caution regarding the use of pilot studies to guide power calculations for study proposals. Archivos de Psiquiatría General, 63 (5), 484-489.

En cualquier caso, la información proporcionada en la página de la calculadora es muy escasa e insuficiente para servir de base a un análisis de potencia adecuado. Incluso si estuviera dispuesto a ignorar el punto que acabo de comentar, como mínimo necesitaría el nivel de potencia deseado (junto con el tamaño del efecto y el nivel de error) para calcular el tamaño de la muestra, y no parece que se mencione en ninguna parte.

1voto

Boris Breuer Puntos 1

Acabo de tropezar con la ecuación que R está utilizando en el power.prop.test() función.

$$ n=\dfrac{2(\bar{p})(1-\bar{p})(Z_{\beta}+Z_{\alpha/2})^{2}}{(p_{1}-p_{2})^{2}} $$

Tenga en cuenta que la potencia y los intervalos de confianza se expresan como puntuaciones Z. Estoy utilizando una potencia del 80%, que es $Z_{\beta}=0.84$ y un intervalo de confianza del 95%, es decir $Z_{\alpha/2}=1.96$ . Estos valores me dan las mismas respuestas que estoy recibiendo de R. No voy a marcar esto como la respuesta, pero quería incluirlo en caso de que alguien aterriza aquí en busca de una solución exacta.


EDIT: Debo corregir mi afirmación. Esta no es la ecuación exacta que R utiliza en su power.prop.test() pero da los mismos resultados. Su ecuación es más compleja que esto. Los he comparado docenas de veces y los resultados son siempre +/- 2 entre sí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X