5 votos

Estoy realizando una serie de experimentos que espero que tengan resultados similares. ¿Cuál es el mejor método para medir la significación estadística?

En la línea de este comentario En respuesta a mi pregunta anterior, me gustaría saber dos cosas:

  • ¿cuál es la mejor prueba estadística que puedo utilizar para medir la significación de los experimentos que estoy realizando? (Anteriormente se dijo que podría utilizar las pruebas z o la prueba exacta de Fisher)
  • ¿Cómo puedo medir el tamaño de la cohorte necesaria para cada experimento a fin de lograr una potencia razonable?

Aquí hay algo de información sobre los experimentos que estoy llevando a cabo:

  • Cada experimento tendrá una cohorte A (el control) y una cohorte B (que verá el tratamiento).
  • La mayoría de los experimentos sólo se llevarán a cabo en cohortes de 30-200 participantes
  • Sólo busco B's que tengan un positivo aumento sobre A (unilateral).
  • También espero que si hay un aumento positivo en B que será un aumento bastante grande (> 100% de aumento en relación con el control).
  • Por último, la cohorte A tendrá generalmente una tasa de éxito baja (<10%), por lo que no podemos confiar en que la distribución del muestreo sea aproximadamente normal.

Puede ver algunos datos de ejemplo en mi pregunta anterior .

3voto

BruceET Puntos 7117

En primer lugar, me tomé un tiempo para comprobar que la prueba z no funciona bien cuando la probabilidad de éxito en el grupo de control es tan pequeña como el 10%.

En segundo lugar, he aquí algunos resultados utilizando una prueba exacta de Fisher unilateral que rechaza la hipótesis nula de que las probabilidades de éxito en los dos grupos son iguales cuando hay un número significativamente mayor de más éxitos en el grupo de tratamiento que en el grupo de control. (Esto significa que hay que descartar como casualidad cualquier resultado con un número significativamente mayor de éxitos en el grupo de control).

Todos los resultados que aparecen a continuación corresponden a la prueba exacta de Fisher, y los tamaños de las muestras son iguales en los dos grupos. He observado casos para $n = n_T = n_C = 50, 100,$ y $200.$

$n = 50.$ Supongamos que la probabilidad de éxito en el grupo de control es $\pi_C = 0.02$ : Si $\pi_T = 0.15,$ entonces el valor P es la media de $.07.$ Si $\pi_T = 0.2,$ , el valor P medio disminuye a $.022.$ Y si $\pi_T = 0.25,$ el valor p medio disminuye a $.007.$ Esto se resume en el primer grupo de abajo, y el segundo grupo es para $\pi_C = 0.1.$

         ppc  ppt   Pv
  n=50   .02  .15  .07
              .20  .022
              .35  .007
         .10  .25  .11     # Scenario (b) below
              .30  .05
              .35  .021    # Scenario (a) below
              .40  .008 

  n=100  .02  .10  .06
              .15  .009
              .20  .001
         .10  .20  .10
              .25  .03
              .30  .007

  n=200  .02  .05  .16
              .10  .009
              .15  .0003
         .10  .15  .17
              .20  .028
              .25  .003
              .30  .0002

Espero que puedas ver que esto te da una idea aproximada de las diferencias entre $\pi_C$ y $\pi_T$ puede detectarse de forma fiable y a qué nivel de significación, para cada uno de los tres tamaños de muestra. Todos los resultados de los valores P medios se basan en la simulación y son están sujetos a pequeños errores de simulación.

Ejemplos con $n = 100$ y el grupo de control con la proporción de población de éxitos $\pi_C = .10$ : A un nivel de significación del 5%, usted raramente podrá detectar que $\pi_T = .20$ es una mejora, por lo general, ser capaz de detectar que $\pi_T = .25$ es una mejora, y rara vez pasan por alto que $\pi_T = .30$ es una mejora.

Si quieres, puedo mostrarte el código R que he utilizado para obtener estos resultados. Así podrías investigar otros escenarios. R está disponible gratuitamente en www.r-project.org y no es necesario ningún conocimiento de R sería necesario para cambiar los números en mi programa y ejecutar escenarios adicionales.

Por último, no me fiaría ni siquiera de la prueba exacta de Fisher (cualquier tamaño de la muestra) a menos que que el número de éxitos en el grupo de tratamiento sea de al menos 5.


Adenda: Código R para las pruebas exactas de Fisher. Como se ha solicitado, aquí está el código R utilizado para obtener la información presentada anteriormente. Las respuestas para una de las situaciones específicas presentadas se muestra. Las constantes de las dos primeras líneas de código pueden cambiarse para investigar otras situaciones. (Los valores de la potencia, incluidos aquí, son no están tabulados arriba).

 nc = 50;  nt = 50      # sample sizes
 ppc = .1;  ppt = .35   # population proportions of Success--Scenario (a)
 m = 10^6               # iterations for simulation (adjustable >= 10^4)
 xc = rbinom(m, nc, ppc)   # m-vector of numbers of control Successes 
 xt = rbinom(m, nt, ppt)   # m-vector of numbers of treatment Successes
 pv = phyper(xt-1, nt, nc, xt+xc, lower.tail=F)  # m-vect of 1-sided P-vals
 mean(pv)                                        # avg of 1-sided P-vals
 ##  0.02102584
 mean(pv <= .05)  # P(Rej Ho | Ho False as specif) = Power against alt. specif
 ##  0.887290

Los gráficos de los valores P simulados se muestran en los siguientes histogramas. El escenario (a) es para $n_C = n_T = 50;\, \pi_C = .1, \pi_T = .35$ y en el escenario (b) $\pi_T = .25.$ Las líneas rojas punteadas verticales están en $0.5,$ por lo que la barra a la izquierda de la línea representa la potencia de la prueba, la probabilidad de rechazar $H_0: \pi_T = \pi_c$ contra las alternativas $H_a: \pi_T > \pi_C$ (como se especifica), en el nivel $\alpha = 5\%.$

enter image description here

Quizás el primer uso de este código debería ser verificar los valores en la tabla anterior para asegurarse de que no hay errores de imprenta.

0voto

Andrew Misovec Puntos 1

Definir una variable aleatoria. Define una función de distribución.Wickipedia puede ayudarte.Calcula el valor medio y la desviación estándar (Wickepedia de nuevo).Luego calcula los intervalos de confianza (sí, Wickipedia).El intervalo de confianza te da la probabilidad de que tu valor medio esté dentro del intervalo de confianza.

Este enfoque me ha servido para analizar las pruebas de explosión de diversas estructuras y vehículos militares. Los patrocinadores que no tienen conocimientos matemáticos aprecian este enfoque.

Ahora estoy jubilado y uso este enfoque para trazar las millas por galón (variable aleatoria) contra el kilometraje del coche. Aunque hay bastante dispersión en los datos, la media se mantiene cerca de las 35 mpg. Buena suerte.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X