5 votos

¿Cómo calcular correctamente el error de tipo I en un ensayo clínico de dos pasos cuando se detiene después del primer paso?

Acabo de terminar de leer lo siguiente artículo de Berger y Berry (1988) en el que explican cómo la subjetividad entra en los análisis estadísticos. Uno de sus ejemplos se refiere a un ensayo clínico con una o dos etapas (pág. 164 del artículo). El escenario es el siguiente:

  • tenemos n pares de sujetos emparejados.
  • cada miembro de una pareja recibe vitamina C y un placebo, respectivamente
  • queremos evaluar si el sujeto que recibe la vitamina C o el que recibe el placebo presenta un mayor alivio de los síntomas del resfriado (es un experimento puramente ficticio, así que no me cuelguen los aspectos médicos)
  • nuestra hipótesis nula es que no hay diferencia entre la vitamina C y el placebo (es decir, p(la vitamina C ayuda) = p(el placebo ayuda) = 1/2; por lo tanto, estamos tratando con una distribución binomial

1) En el primer caso, sólo hay una etapa que incluye n=17 pares de pacientes. Si el número de pares con preferencia por la vitamina C (es decir, el número de pares para los que la vitamina C parecía ayudar) es un elemento de [0,1,2,3,4,13,14,15,16,17], es decir, si es menor que 5 o mayor que 12, se rechazará la hipótesis nula. La probabilidad sumada de obtener un número menor que 5 o mayor que 12 bajo la hipótesis nula es de 0,049

2) En el segundo caso, se trata de dos etapas. En la primera etapa, tenemos n=17 pares de pacientes. De nuevo, rechazamos la hipótesis nula si el número de pares con preferencia por la vitamina C es inferior a 5 o superior a 12. Sin embargo, si no somos capaces de rechazar la hipótesis nula basándonos en este criterio, añadimos una segunda etapa a nuestro ensayo observando 27 pares adicionales, para un total de 44 pares, concluyendo que hay suficiente evidencia contra H si el número total de preferencias por la vitamina C es inferior a 16 o superior a 28. La probabilidad sumada de estos eventos es de nuevo de 0,049.

Ahora bien, Berger y Berry sostienen que en el caso de que tengamos 13 preferencias por la vitamina C de 17 pares el valor p es diferente en el primer caso con una sola etapa planificada y realizada en comparación con la segunda etapa con dos planificado , pero sólo uno realizado escenario.

Su explicación: "Para ver esto, recuerde el proceso básico para llegar a un valor P. Se supone que H es verdadera, se calcula la probabilidad del conjunto de datos posibles que arrojarían tantas o más dudas sobre H que los datos observados, y se afirma que hay pruebas significativas contra H si esta probabilidad es lo suficientemente pequeña. El conjunto R* de observaciones más extremas en el diseño de dos etapas es igual al conjunto R de observaciones más extremas para el diseño de una etapa (n=17) más las observaciones más extremas en la segunda etapa (n=44). Dado que R está contenida en R*, está claro que R* tiene una probabilidad mayor y, por tanto, es menos "significativa". La probabilidad de dar con una región fuera del umbral de significación después de 17 observaciones o, en su defecto, después de 44 observaciones, resulta ser de 0,085"

Entiendo el argumento de que R* comprende a R, por lo que R* no puede ser menor que R. Sin embargo, no pude entender cómo los autores obtuvieron el número 0,085. Mi enfoque habría sido sumar la probabilidad de obtener un resultado significativo en la primera etapa (0,049) y la probabilidad de obtener un resultado significativo en la segunda etapa (0,049) por la probabilidad de llegar realmente a la segunda etapa (1-0,049). Pero esto me da: 0,049 + ((1-0,049)*0,049) = 0,095599 != 0,085.

Otro enfoque consistió en tener en cuenta que, para llegar a la segunda etapa, el número de parejas que prefieren la vitamina C en la primera etapa debía estar entre 5 y 12 (de lo contrario, habríamos rechazado la hipótesis nula y detenido el experimento). Por lo tanto, el número de parejas que prefieren la vitamina C sólo puede estar entre 5 y 39. Pero esta información tampoco me sirvió para llegar al resultado correcto.

¿Podría alguien explicar cómo puedo obtener el error de tipo I de 0,089 para el escenario descrito anteriormente?

1 votos

Para una visión alternativa del error de tipo I, véase este artículo de Gelman, Hill y Yajima, Por qué (normalmente) no tenemos que preocuparnos por las comparaciones múltiples (de J Res on Educ Eff , 5: 189-211, 2012), donde argumentan que sólo en raras ocasiones debemos preocuparnos por el error de tipo I porque rara vez creemos que sea posible que la hipótesis de tipo I sea estrictamente cierta.

3voto

John Puntos 1

El problema aquí es que, dado que la primera etapa no ha alcanzado la significación, la segunda tiene menos posibilidades que su teórico 0,049 de alcanzar la significación. Intuitivamente se puede pensar que es más probable que las preferencias se centren en la mitad si la primera etapa no ha alcanzado la significación. Si no fuera el caso, el cálculo de su alfa real habría sido 1-(1-0,049)*(1-0,049). Por cierto, este número es el error de tipo I, no un valor p (de todos modos, supongo que escribiste Valor p por falta de atención) : $$1-(1-P(X1))*((1-P(X2|\bar{X1})$$ donde

  • X1 representa el evento "significación estadística alcanzada como paso 1"
  • X2 representa el evento "significación estadística alcanzada como paso 2"

Sumar las probabilidades como has hecho no es correcto, X1 y X2 no son eventos disjuntos. Pueden ser verdaderos juntos. La parte complicada, aquí, es calcular $(1-P(X2|\bar{X1})$ . No sé si existe una fórmula directa que lo dé. Sin embargo, una simulación, o un cálculo crudo ambos dan el alfa que usted está buscando.

He calculado ambos en python. Espero que el código no sea demasiado difícil de entender.

Simulación

import random success=0 random.seed(44) trials=1000000 for i in range(trials): preferences=[bool(random.getrandbits(1)) for j in range(44)] countTo_17=sum(preferences[:17]) countTo_44=sum(preferences) if((countTo_17)<=4 or (countTo_17)>=13)or((countTo_44)<16 or(countTo_44)>28): success+=1 print(success/float(trials))

Esto dio 0.084878

Cómputo bruto

Queremos calcular $(1-P(X2|\bar{X1})$ . Se trata de enumerar todos los casos posibles dando significación y asociando sus probabilidades. La probabilidad de cada número de preferencias obtenidas en la etapa 1 viene dada por la ley binomial. Pero no hay que olvidar el hecho de que la significación no se ha alcanzado en la etapa 1, por lo que hay que "normalizar" las probabilidades mediante un coeficiente que permita que la suma de los diferentes resultados llegue a 1. Esto es lo que coeff en el código de abajo lo hacen. Una vez realizado el cálculo, hay que hacer lo mismo con el número de preferencias acumuladas en la etapa 2 y multiplicar ambas probabilidades.

from scipy.stats import binom probaReachingStage1=0.049 coeff=(1/(1-probaReachingStage1)) probaReachingStage2=0 for sumOfPref_stage1 in range(5,13): p1=coeff*binom.pmf(sumOfPref_stage1, 17,0.5) for sumOfPref_stage2 in range(27): TotalsumOfPreferences=sumOfPref_stage1+sumOfPref_stage2 if(TotalsumOfPreferences>28)or(TotalsumOfPreferences<16): p2=binom.pmf(sumOfPref_stage2, 27,0.5) probaReachingStage2+=p1*p2 print(probaReachingStage2) alphaFinal=1-(1-probaReachingStage1)*(1-probaReachingStage2) print(alphaFinal)

Lo que también da 0.08488

1 votos

Muchas gracias por su detallada explicación. Una fórmula habría sido genial, pero ahora entiendo definitivamente la idea subyacente. Y, por supuesto, tenías razón en lo que respecta al valor p/error de tipo I; he cambiado el título en consecuencia.

0 votos

Gracias. En este caso, su última frase en su puesto también debe ser editado creo.

0 votos

Claro, por supuesto. Se corrige =)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X