Acabo de terminar de leer lo siguiente artículo de Berger y Berry (1988) en el que explican cómo la subjetividad entra en los análisis estadísticos. Uno de sus ejemplos se refiere a un ensayo clínico con una o dos etapas (pág. 164 del artículo). El escenario es el siguiente:
- tenemos n pares de sujetos emparejados.
- cada miembro de una pareja recibe vitamina C y un placebo, respectivamente
- queremos evaluar si el sujeto que recibe la vitamina C o el que recibe el placebo presenta un mayor alivio de los síntomas del resfriado (es un experimento puramente ficticio, así que no me cuelguen los aspectos médicos)
- nuestra hipótesis nula es que no hay diferencia entre la vitamina C y el placebo (es decir, p(la vitamina C ayuda) = p(el placebo ayuda) = 1/2; por lo tanto, estamos tratando con una distribución binomial
1) En el primer caso, sólo hay una etapa que incluye n=17 pares de pacientes. Si el número de pares con preferencia por la vitamina C (es decir, el número de pares para los que la vitamina C parecía ayudar) es un elemento de [0,1,2,3,4,13,14,15,16,17], es decir, si es menor que 5 o mayor que 12, se rechazará la hipótesis nula. La probabilidad sumada de obtener un número menor que 5 o mayor que 12 bajo la hipótesis nula es de 0,049
2) En el segundo caso, se trata de dos etapas. En la primera etapa, tenemos n=17 pares de pacientes. De nuevo, rechazamos la hipótesis nula si el número de pares con preferencia por la vitamina C es inferior a 5 o superior a 12. Sin embargo, si no somos capaces de rechazar la hipótesis nula basándonos en este criterio, añadimos una segunda etapa a nuestro ensayo observando 27 pares adicionales, para un total de 44 pares, concluyendo que hay suficiente evidencia contra H si el número total de preferencias por la vitamina C es inferior a 16 o superior a 28. La probabilidad sumada de estos eventos es de nuevo de 0,049.
Ahora bien, Berger y Berry sostienen que en el caso de que tengamos 13 preferencias por la vitamina C de 17 pares el valor p es diferente en el primer caso con una sola etapa planificada y realizada en comparación con la segunda etapa con dos planificado , pero sólo uno realizado escenario.
Su explicación: "Para ver esto, recuerde el proceso básico para llegar a un valor P. Se supone que H es verdadera, se calcula la probabilidad del conjunto de datos posibles que arrojarían tantas o más dudas sobre H que los datos observados, y se afirma que hay pruebas significativas contra H si esta probabilidad es lo suficientemente pequeña. El conjunto R* de observaciones más extremas en el diseño de dos etapas es igual al conjunto R de observaciones más extremas para el diseño de una etapa (n=17) más las observaciones más extremas en la segunda etapa (n=44). Dado que R está contenida en R*, está claro que R* tiene una probabilidad mayor y, por tanto, es menos "significativa". La probabilidad de dar con una región fuera del umbral de significación después de 17 observaciones o, en su defecto, después de 44 observaciones, resulta ser de 0,085"
Entiendo el argumento de que R* comprende a R, por lo que R* no puede ser menor que R. Sin embargo, no pude entender cómo los autores obtuvieron el número 0,085. Mi enfoque habría sido sumar la probabilidad de obtener un resultado significativo en la primera etapa (0,049) y la probabilidad de obtener un resultado significativo en la segunda etapa (0,049) por la probabilidad de llegar realmente a la segunda etapa (1-0,049). Pero esto me da: 0,049 + ((1-0,049)*0,049) = 0,095599 != 0,085.
Otro enfoque consistió en tener en cuenta que, para llegar a la segunda etapa, el número de parejas que prefieren la vitamina C en la primera etapa debía estar entre 5 y 12 (de lo contrario, habríamos rechazado la hipótesis nula y detenido el experimento). Por lo tanto, el número de parejas que prefieren la vitamina C sólo puede estar entre 5 y 39. Pero esta información tampoco me sirvió para llegar al resultado correcto.
¿Podría alguien explicar cómo puedo obtener el error de tipo I de 0,089 para el escenario descrito anteriormente?
1 votos
Para una visión alternativa del error de tipo I, véase este artículo de Gelman, Hill y Yajima, Por qué (normalmente) no tenemos que preocuparnos por las comparaciones múltiples (de J Res on Educ Eff , 5: 189-211, 2012), donde argumentan que sólo en raras ocasiones debemos preocuparnos por el error de tipo I porque rara vez creemos que sea posible que la hipótesis de tipo I sea estrictamente cierta.