61 votos

Pruebas A/B: prueba z vs prueba t vs chi cuadrado vs prueba exacta de fisher

Estoy tratando de entender el razonamiento al elegir un enfoque de prueba específico cuando se trata de una simple prueba A/B - (es decir, dos variaciones/grupos con una respuesta binaria (convertido o no). Como ejemplo, utilizaré los siguientes datos

Version  Visits  Conversions
A        2069     188
B        1826     220

La mejor respuesta aquí es genial y habla de algunos de los supuestos subyacentes de las pruebas z, t y chi cuadrado. Pero lo que encuentro confuso es que diferentes recursos en línea citan diferentes enfoques, y uno pensaría que los supuestos para una prueba A/B básica deberían ser más o menos los mismos?

  1. Por ejemplo, este artículo utiliza Puntuación z : enter image description here
  2. Este artículo utiliza la siguiente fórmula (que no estoy seguro si es diferente del cálculo de zscore?):

enter image description here

  1. Este documento hace referencia a la prueba t(p 152):

enter image description here

Entonces, ¿qué argumentos se pueden esgrimir a favor de estos diferentes enfoques? ¿Por qué hay que tener una preferencia?

Para añadir un candidato más, la tabla anterior puede reescribirse como una tabla de contingencia 2x2, donde Prueba exacta de Fisher (p5) se puede utilizar

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

Pero según este hilo la prueba exacta de fisher sólo debe utilizarse con tamaños de muestra pequeños (¿cuál es el límite?)

Y luego están las pruebas t y z emparejadas, la prueba f (y la regresión logística, pero quiero dejarla fuera por ahora).... Siento que me estoy ahogando en diferentes enfoques de prueba, y sólo quiero ser capaz de hacer algún tipo de argumento para los diferentes métodos en este simple caso de prueba A/B.

Utilizando los datos del ejemplo, obtengo los siguientes valores p

  1. https://vwo.com/ab-split-test-significance-calculator/ da un valor p de 0,001 (puntuación z)

  2. http://www.evanmiller.org/ab-testing/chi-squared.html (usando chi cuadrado) da un valor p de 0,00259

  3. Y en R fisher.test(rbind(c(1881,188),c(1606,220)))$p.value da un valor p de 0,002785305

Que supongo que están todos bastante cerca...

En cualquier caso, sólo espero que se produzca un debate saludable sobre qué enfoques utilizar en las pruebas en línea, en las que el tamaño de las muestras suele ser de miles de personas y los porcentajes de respuesta suelen ser del 10% o menos. Mi instinto me dice que use el chi-cuadrado, pero quiero ser capaz de responder exactamente por qué lo estoy eligiendo sobre la otra multitud de maneras de hacerlo.

0 votos

En cuanto a $z$ - y $t$ -prueba que tu pregunta ya está respondida aquí: stats.stackexchange.com/questions/85804/

1 votos

Esta demostración me ha resultado muy útil. Que muestra que la prueba z para proporciones es esencialmente equivalente a la prueba chi-cuadrado de homogeneidad en la tabla de contingencia 2x2. rinterested.github.io/statistics/chi_square_same_as_z_test.html

45voto

Matt Brems Puntos 525

Utilizamos estas pruebas por diferentes razones y en diferentes circunstancias.

  1. $z$ -prueba. A $z$ -La prueba supone que nuestras observaciones se extraen de forma independiente de una distribución normal con media y varianza conocida. A $z$ -se utiliza principalmente cuando tenemos datos cuantitativos. (por ejemplo, el peso de los roedores, la edad de los individuos, la presión arterial sistólica, etc.), $z$ -también se puede utilizar cuando se interesan por las proporciones. (por ejemplo, la proporción de personas que duermen al menos ocho horas, etc.)

  2. $t$ -prueba. A $t$ -La prueba supone que nuestras observaciones se extraen de forma independiente de una distribución normal con media y varianza desconocida. Tenga en cuenta que con un $t$ -prueba, no conocemos la varianza de la población. Esto es mucho más común que conocer la varianza de la población, por lo que un $t$ -es generalmente más apropiado que un $z$ -pero en la práctica habrá poca diferencia entre los dos si el tamaño de las muestras es grande.

Con $z$ - y $t$ -En las pruebas, la hipótesis alternativa será que la media de la población (o la proporción de la población) de un grupo no es igual, es menor o es mayor que la media de la población (o la proporción) del otro grupo. Esto dependerá del tipo de análisis que desee realizar, pero sus hipótesis nula y alternativa comparan directamente las medias/proporciones de los dos grupos.

  1. Prueba de Chi-cuadrado. Mientras que $z$ - y $t$ -las pruebas se refieren a datos cuantitativos (o proporciones en el caso de $z$ ), las pruebas de chi-cuadrado son adecuadas para los datos cualitativos. Una vez más, el supuesto es que las observaciones son independientes entre sí. En este caso, no se busca una relación concreta. Su hipótesis nula es que no existe ninguna relación entre la variable uno y la variable dos. La hipótesis alternativa es que existe una relación. Esto no le da detalles sobre cómo existe esta relación (es decir, en qué dirección va la relación), pero le proporcionará pruebas de que existe (o no) una relación entre su variable independiente y sus grupos.

  2. Prueba exacta de Fisher. Un inconveniente de la prueba de chi-cuadrado es que es asintótica. Esto significa que el $p$ -valor es preciso para tamaños de muestra muy grandes. Sin embargo, si el tamaño de la muestra es pequeño, entonces el $p$ -valor puede no ser tan preciso. Por ello, la prueba exacta de Fisher permite calcular exactamente el $p$ -valor de sus datos y no confiar en aproximaciones que serán pobres si el tamaño de sus muestras es pequeño.

Sigo discutiendo sobre el tamaño de las muestras - diferentes referencias le darán diferentes métricas en cuanto a cuando sus muestras son lo suficientemente grandes. Yo simplemente encontraría una fuente acreditada, miraría su regla y aplicaría su regla para encontrar la prueba que quieres. Yo no "compraría", por así decirlo, hasta que encuentre una regla que le "guste".

En última instancia, la prueba que elija debe basarse en a) el tamaño de la muestra y b) la forma que desee que adopten sus hipótesis. Si está buscando un efecto específico de su prueba A/B (por ejemplo, mi grupo B tiene puntuaciones más altas en la prueba), entonces yo optaría por un $z$ -prueba o $t$ -prueba, en función del tamaño de la muestra y del conocimiento de la varianza de la población. Si quiere demostrar que simplemente existe una relación (por ejemplo, mi grupo A y mi grupo B son diferentes en función de la variable independiente, pero no me importa qué grupo tiene puntuaciones más altas), entonces la prueba de chi-cuadrado o la exacta de Fisher son adecuadas, dependiendo del tamaño de la muestra.

¿Tiene esto sentido? Espero que esto ayude.

0 votos

Gracias por la respuesta tan detallada. Voy a repasarla en detalle, ¡seguro que me surgen algunas preguntas!

0 votos

¿Podría explicar mejor por qué la prueba de ji al cuadrado y la prueba exacta de Fisher no indican la dirección de un efecto? Si todas las pruebas de estadística inferencial proporcionan un nivel de confianza en torno a si dos conjuntos de muestras proceden de poblaciones diferentes o de la misma población, entonces ¿qué hay en la teoría matemática que no permite afirmar que la diferencia direccional en los valores medios se mantendría (el grupo B tiene una puntuación más alta)?

2 votos

Para mayor claridad, la prueba chi-cuadrado y la prueba exacta de Fisher hacen lo mismo, pero el valor p se calcula de forma ligeramente diferente. (Es una aproximación bajo chi-cuadrado y un cálculo exacto bajo exacto de Fisher). Trataré el chi-cuadrado y se generalizará al de Fisher. La cuestión aquí es la premisa. "Si todas las pruebas de estadística inferencial proporcionan un nivel de confianza en torno a si dos muestras se extraen de..." - eso no es lo que hace la prueba chi-cuadrado. La hipótesis nula para la prueba chi-cuadrado es que no hay asociación y la hipótesis alternativa...

-3voto

Bachan Puntos 1

Para una prueba de 3 vías se suele utilizar un ANOVA en lugar de 3 pruebas separadas. Por favor, compruebe también la corrección de Bonferroni antes de las pruebas múltiples. Por favor, utilice esta https://www.google.com/search?q=testing+multiple+means&rlz=1C1CHBD_enIN817IN817&oq=testing+multiple+means+&aqs=chrome..69i57j69i60l3j69i61j0.3564j0j7&sourceid=chrome&ie=UTF-8

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X