2 votos

Comparación del cambio de pliegues (tamaño del efecto) después de un tratamiento

Llevo un año utilizando este sitio para obtener consejos sobre estadísticas, pero me he encontrado con un problema que no puedo superar. No es demasiado complicado, pero no estoy seguro de cómo determinar la importancia o si mis ideas son correctas. Espero que alguno de vosotros pueda ayudar un poco. Gracias de antemano.

Tengo una situación en la que tengo dos cepas de ratones. En una cepa de ratón, tienen una alta incidencia de una enfermedad mientras que otra tiene una incidencia menor de la misma enfermedad. La enfermedad es binaria, o la tienen o no la tienen.

Si trato a una población de cualquiera de las dos cepas de ratones con el fármaco A, ambas obtienen una reducción de la incidencia de la enfermedad. En la cepa de ratones de alta incidencia, la incidencia de la enfermedad disminuye del 30% al 15%. La cepa de ratones de baja incidencia ve una caída del 10% -> 1% después del tratamiento.

A partir de este experimento, si mirara el descenso absoluto de la incidencia parecería que el fármaco es más eficaz en el grupo de alta incidencia que tiene un descenso del 15%, frente al 9% en el otro. Sin embargo, (para mí) está claro que el fármaco es mucho más eficaz en la cepa de ratones de baja incidencia porque el cambio de pliegue es una reducción de 10 veces, mientras que los ratones de alta incidencia sólo tienen una reducción de 2 veces.

Espero que el escenario tenga sentido... Mi pregunta es:

Si quiero determinar si la reducción de pliegues en los ratones de menor incidencia es significativamente mayor que en los de mayor incidencia, ¿qué tipo de prueba estadística debo hacer?

Estoy pensando que debería transformar las incidencias en log(2) y luego probar el efecto del tratamiento con un modelo lineal o ANOVA. No estoy seguro de si esto es correcto, especialmente con mi variable de respuesta binaria y sin réplicas (es imposible hacer réplicas debido al gran número de ratones ~3000).

Cualquiera de sus sugerencias/respuestas sería genial y muy apreciada.

1voto

EdM Puntos 5716

Este tipo de situaciones con resultados binarios suelen ser manejadas por regresión logística que en su caso utilizaría los estados de enfermedad/no enfermedad de los 3000 ratones para estimar el logaritmo de las probabilidades de tener la enfermedad en función de las variables predictoras. En este caso, se incluiría la cepa del ratón y el tratamiento con el fármaco como variables predictoras; además, dado que se está interesado en saber si el fármaco es más "eficaz" en una cepa de ratón, se incluiría un término de interacción entre la cepa y el fármaco. Un término de interacción significativo apoyaría la hipótesis de que las respuestas al fármaco, en términos de influencia en las probabilidades logarítmicas de padecer la enfermedad, difieren entre las cepas de ratones. Los resultados expresados en términos de probabilidades logarítmicas pueden traducirse de nuevo a escalas de probabilidad y, por tanto, a diferencias de pliegues en la incidencia de la enfermedad, si se desea.

Dicho esto, le sugiero que piense un poco más en su definición de "más eficaz"; lo traduciré de ratones a personas para ponerlo en una perspectiva de salud pública. Digamos que hay 1000 personas en un grupo de alta incidencia y 1000 en un grupo de baja incidencia. Digamos que el medicamento cuesta \$1 per dose, and you only had \$ 1000 dólares para gastar.

¿En qué grupo debería gastar el dinero? Se evitaría la enfermedad en 150 personas si se diera al grupo de alta incidencia, pero sólo en 90 personas si se diera al grupo de baja incidencia. Desde esta perspectiva de coste-beneficio, el fármaco es más eficaz si se utiliza en el grupo de alta incidencia, incluso si el cambio en la incidencia es mayor en el grupo de baja incidencia.

1voto

jws121295 Puntos 36

Traduzco tu pregunta en:

  • Si quiero determinar la diferencia de respuesta al mismo tratamiento de dos especies de ratones, ¿cuál es el enfoque correcto?
  • ¿Cómo puedo comprobar si mi idea (sobre la eficacia) es correcta?

Pensamientos:

  • Creo que este es un buen lugar para la regla de Bayes. ( Yudkowsky Bayes )
  • También creo que deberías mirar los intervalos de confianza y los tamaños de las muestras. de la muestra.
  • Bayes vendría después del CI dado el tamaño de las muestras, imo.

Mi primera pregunta sería : "Cuál es el intervalo de confianza (IC) inferior al 95% dado el tamaño de mi muestra".

Si tengo 10 ratones de cada especie, las proporciones significan algo sustancialmente diferente que para 100 ratones. Aquí hay una gran calculadora para abordar la cuestión: enlace . La columna que recomiendo es Jeffreys.

Si tengo 10 ratones y 3 de ellos tienen la enfermedad entonces

  • mi IC inferior del 95% es del 9,27%
  • mi IC inferior del 95% es del 60,58%
  • mi media es de 30.00%

Esto significa que hay muchas posibilidades de que el valor "verdadero" esté entre el 9% y el 61%, y pocas posibilidades de que esté fuera de estos valores dados los datos. La región en la que se espera que viva el "verdadero" es de aproximadamente el 50%, es decir, la mitad de todo el dominio.

Si tengo 100 ratones y 30 de ellos tienen la enfermedad, entonces

  • mi IC inferior del 95% es del 21,68%
  • mi IC inferior del 95% es del 39,45%
  • mi media es de 30.00%

Esto significa que hay muchas posibilidades de que el valor "verdadero" esté entre el 21% y el 40%, y pocas posibilidades de que esté fuera de estos valores dados los datos. La región en la que se espera que viva el "verdadero" es el 20%, una quinta parte de todo el dominio. Se necesitaron 10 veces las muestras, pero se redujo el dominio en 2,5 veces.

Se puede ver cómo una mayor frecuencia de muestreo tira sustancialmente de la anchura. También puede ver cómo con sólo 10 muestras, un valor del 10% es interior al IC del 95%. Esto significa que si sólo tiene 10 muestras de cada raza por tratamiento, el enfoque experimental podría tener un problema. Podría no dar suficientes datos para diferenciar claramente las dos.

Mi segunda pregunta sería : "Si tengo un ratón de una especie determinada, y no tiene la enfermedad, y tengo recuentos iguales de ambas especies de ratones en mi población, ¿cuál es la probabilidad de que haya recibido un tratamiento?".

Aquí hay un código que utiliza la regla de Bayes (espero que no sea incorrecta):

    #set random seed
set.seed(1)

#total number of mice over 4
#    each treat, each species is this value
N <- 2000

#roll some dice
p30t      <- rbinom(N,1,1-0.1)       #treated species30pct undiseased
p30ut     <- rbinom(N,1,1-0.3)      #untreated species30pct undiseased
p10t      <- rbinom(N,1,1-0.01)      #treated species10pct
p10ut     <- rbinom(N,1,1-0.1)       #untreated species10pct

#some sums 
num_treated    <- 2*N
num_untreated  <- 2*N
num_species10  <- 2*N
num_species30  <- 2*N
num_total      <- 4*N

# prob of species10 AND undiseased given treated
p_s10_ud_gt <- (sum(p10t))/num_treated
p_s10_ud_gt

# prob(treated)
p_treated <- num_treated/(num_treated+num_untreated)
p_treated

# prob of species10 AND undiseased 
p_s10_ud <- (sum(p10t)+sum(p10ut))/num_total
p_s10_ud

#prob treated given s10 and undiseased
p_t_gs10_gud <- (p_s10_ud_gt*p_treated)/p_s10_ud
p_t_gs10_gud

####

# prob of species30 AND undiseased given treated
p_s30_ud_gt <- (sum(p30t))/num_treated
p_s30_ud_gt

# prob(treated)
p_treated <- num_treated/(num_treated+num_untreated)
p_treated

# prob of species30 AND undiseased 
p_s30_ud <- (sum(p30t)+sum(p30ut))/num_total
p_s30_ud

#prob treated given s30 and undiseased
p_t_gs30_gud <- (p_s30_ud_gt*p_treated)/p_s30_ud
p_t_gs30_gud

#### ####

# prob of species10 AND diseased given treated
p_s10_d_gt <- (sum(1-p10t))/num_treated
p_s10_d_gt

# prob(treated)
p_treated <- num_treated/(num_treated+num_untreated)
p_treated

# prob of species10 AND diseased 
p_s10_d <- (sum(1-p10t)+sum(1-p10ut))/num_total
p_s10_d

#prob treated given s10 and diseased
p_t_gs10_gd <- (p_s10_d_gt*p_treated)/p_s10_d
p_t_gs10_gd

####

# prob of species30 AND diseased given treated
p_s30_d_gt <- (sum(1-p30t))/num_treated
p_s30_d_gt

# prob(treated)
p_treated <- num_treated/(num_treated+num_untreated)
p_treated

# prob of species30 AND diseased 
p_s30_d <- (sum(1-p30t)+sum(1-p30ut))/num_total
p_s30_d

#prob treated given s30 and undiseased
p_t_gs30_gd <- (p_s30_d_gt*p_treated)/p_s30_d
p_t_gs30_gd

Cuando pongo esto en una tabla y lo comparo con el resultado analítico obtengo lo siguiente:

enter image description here

donde:

enter image description here

Puedes ver donde introduje manualmente los resultados numéricos de la ejecución del código R y los comparé con el "caso puro".

Las líneas de fondo:

Lo que esto me dice es:

  1. Conseguí resultados bastante consistentes usando dos modos distintos, así que si me equivocaba, lo hacía dos veces distintas.
  2. Si tengo un bicho que está tratado y enfermo, es 10 veces más probable que sea de la especie 30 que de la especie 10.
  3. Si tengo un bicho enfermo, la probabilidad de que haya sido tratado es 2,75 veces mayor si es de la especie 30 que si es de la especie 10.
  4. Puede que el tamaño de la muestra sea alto, pero teniendo en cuenta la tasa del 1% para la especie 10, sigue habiendo una diferencia bastante grande entre los resultados realistas y el límite de las muestras infinitas. Ese 12% de error relativo cuando todos los demás están entre el 5% y el 0,2% es una advertencia. Tal vez quiera desajustar la semilla del código anterior y ejecutar la simulación unos cientos de veces, almacenando las estimaciones, y determinar no sólo el valor medio, sino la tolerancia alrededor de la media dado el tamaño de sus muestras. Esto pondrá algunas barras de error alrededor de los 10x y los 2,75x.

Comprender claramente la diferencia entre los puntos 2 y 3 será probablemente importante en la discusión. La diferencia es saber si se ha tratado o no. Para el resultado previsto, ¿quieres que el conocimiento del tratamiento sea un hecho, como si fueras a tratar a toda la población? ¿Quiere un alcance más estrecho en su solución? Todo análisis técnico tiene que apoyar una decisión empresarial. Toda decisión empresarial consiste en maximizar el retorno de valor. Un crecimiento fiable y excelente pasa por maximizar el retorno de valor para el cliente. Esto significa que muchos análisis podrían mejorar en claridad y efecto si se articulan claramente la naturaleza del cliente, la naturaleza del valor y la naturaleza de la decisión. Es mejor plantear la pregunta 2 o 20 veces y estar seguro de que se hace la pregunta correcta que gastar recursos 2 o 20 veces respondiendo a la pregunta equivocada. La mayoría de los perjuicios empresariales, al igual que muchos accidentes de aviación, son una trágica secuencia de hacer repetidamente la pregunta equivocada.

Una buena gestión del punto 4 probablemente garantice la repetibilidad. Mi estimación es un error relativo medio absoluto del 14,45%, pero un máximo cercano al 92%. No es improbable que se obtenga una tasa experimental del 14,67% al 5,52% en lugar del 9% para la "probabilidad de que se trate una especie dada10 y enferma". Si N es de 4000, entonces el rango es de 13,02 a 6,22. Si se duplica el tamaño de la muestra, se recorta alrededor de un 1% a cada lado de la banda de tolerancia.

Se completará más adelante. El almuerzo está llamando.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X