22 votos

Cómo resumir intervalos creíbles para una audiencia médica

Con Stan y frontend paquetes rstanarm o brms que fácilmente se pueden analizar los datos de la Bayesiana de la manera como lo hice antes con una mezcla de modelos, tales como lme. Mientras que los que más tienen, de los libros y artículos por Kruschke-Gelman-Wagenmakers-etc en mi escritorio, estos no me diga cómo se hace el resumen de los resultados por un médico de la audiencia, dividida entre los cargadores Skylla de Bayesiana de la ira y la Caribdis de médicos revisores ("queremos significaciones, y no que se difunden cosas").

Un ejemplo: Gástrico frecuencia (1/min) se mide en tres grupos; los controles sanos son la referencia. Hay varias medidas para cada participante, por lo que a la frecuentista he utilizado el siguiente modelo mixto lme:

summary(lme(freq_min~ group, random = ~1|study_id, data = mo))

Ligeramente editado resultados:

Fixed effects: freq_min ~ group 
                   Value Std.Error DF t-value p-value
(Intercept)        2.712    0.0804 70    33.7  0.0000
groupno_symptoms   0.353    0.1180 27     3.0  0.0058
groupwith_symptoms 0.195    0.1174 27     1.7  0.1086

Para simplificar, voy a utilizar 2* std error como IC del 95%.

En frecuentista contexto, habría resumido esta como:

  • En el grupo control la frecuencia estimada fue de 2,7/min (tal vez agregar CI aquí, pero puedo evitar a veces, esto debido a la confusión creada por la absoluta y la diferencia de CI).
  • En el no_symptoms grupo, la frecuencia fue mayor en 0.4/min, IC(0.11 a 0,59)/min, p = 0,006 que el control.
  • En el with_symptoms grupo, la frecuencia fue mayor en 0,2/min, IC(-0.04 a 0,4)/min, p = 0,11 que el control.

Este es el máximo aceptable de la complejidad de un médico de la publicación, el revisor probablemente le pida que me agregue "no significativos" en el segundo caso.

Aquí es el mismo con stan_lmer y predeterminado de los priores.

freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)


           contrast lower_CredI frequency upper_CredI
        (Intercept)     2.58322     2.714       2.846
   groupno_symptoms     0.15579     0.346       0.535
 groupwith_symptoms    -0.00382     0.188       0.384

donde CredI son el 90% de los intervalos de credibilidad (ver el rstanarm viñeta ¿por qué el 90% se utiliza como valor predeterminado.)

Preguntas:

  • Cómo traducir el resumen anterior a la Bayesiana mundo?
  • ¿Hasta qué punto es antes de la discusión que se requiere? Estoy bastante seguro de que el papel va a volver con el habitual "subjetiva de la asunción", cuando menciono priores; o, al menos, con "no hay discusión técnica, por favor". Pero todos Bayesiano de la solicitud de las autoridades de que la interpretación sólo es válida en el contexto de los priores.
  • ¿Cómo puedo entregar algunas "importancia" de sustituto en la formulación, sin traicionar Bayesiano conceptos? Algo así como "creíble diferentes" (uuuh...) o casi creíble diferentes (buoha..., suena como "al borde de la significación).

Jonás Gabry y Ben Goodrich (2016). rstanarm: Bayesiana Aplicada de Regresión Modelado a través de Stan. Paquete de R versión 2.9.0-3. https://CRAN.R-project.org/package=rstanarm

Stan Equipo De Desarrollo (2015). Stan: Una Librería de C++ para la Probabilidad y la El Muestreo, La Versión 2.8.0. URL http://mc-stan.org/.

Pablo-Cristiana Buerkner (2016). modificadores de la respuesta biológica: Bayesiano de Modelos de Regresión usando Stan. R paquete de la versión 0.8.0. https://CRAN.R-project.org/package=brms

Pinheiro J, Bates D, DebRoy S, Sarkar D y R Core Team (2016). nlme: Lineal y no Lineal de Efectos Mixtos Modelos. Paquete de R versión 3.1-124, http://CRAN.R-project.org/package=nlme>.

18voto

John K. Kruschke Puntos 146

Pensamientos rápidos:

1) la clave de La cuestión es lo que aplica pregunta que usted está tratando de responder a su público, ya que determina qué tipo de información que desea de su análisis estadístico. En este caso, me parece que usted desee estimar la magnitud de las diferencias entre los grupos (o tal vez la magnitud de las relaciones entre los grupos, si esa es la medida más familiar para el público). La magnitud de las diferencias no es directamente proporcionada por el análisis que se presenta en la pregunta. Pero es sencillo obtener lo que se desea desde el análisis Bayesiano: desea que la distribución posterior de las diferencias (o proporciones). Luego, a partir de la distribución posterior de las diferencias (o proporciones), usted puede hacer un directo probabilidad declaración como esta:

"El 95% más creíble diferencias caen entre [bajo el 95% del IDH límite] y [alta 95% del IDH límite]" (en este caso estoy usando el 95% de la máxima densidad en el intervalo [IDH] como el intervalo creíble, y debido a que estos son, por definición, la más alta densidad de los valores de los parámetros son glosado como 'creíbles')

Médico-diario la audiencia de forma intuitiva y entender correctamente esa declaración, porque es lo que el público normalmente se piensa que es el significado de un frecuentista intervalo de confianza (aunque no en el sentido de una frecuencial del intervalo de confianza).

¿Cómo conseguir que las diferencias (o proporciones) de Stan o ENTRECORTADO? Simplemente por el post-procesamiento de los MCMC de la cadena. En cada paso de la cadena, calcular la diferencia (o proporciones), a continuación, examine la parte posterior de la distribución de las diferencias (o proporciones). Se dan ejemplos en DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ para MCMC en general, en la Figura 7.9 (p. 177), para ENTRECORTADO en la Figura 8.6 (p. 211), y para Stan en la Sección 16.3 (p. 468), etc.!

2) Si usted está obligado por la tradición para hacer una declaración acerca de si es o no una diferencia de cero es rechazada, usted tiene dos Bayesiano opciones.

2A) Una opción es hacer que la probabilidad de las declaraciones con respecto a los intervalos de cerca de cero, y su relación con el IDH. Para esto, se establece una región de equivalencia práctica (CUERDA) en torno a cero, que es simplemente una decisión umbral apropiado para su aplica-de-dominio - - ¿qué tan grande la diferencia es trivialmente pequeño? El establecimiento de tales límites se realiza de manera rutinaria en la clínica de la no-inferioridad de pruebas, por ejemplo. Si usted tiene un "efecto tamaño" medir en su campo, no podría ser de convenios para el "pequeño" tamaño del efecto, y la CUERDA límites podría ser, es decir, la mitad de un pequeño efecto. A continuación, puede hacer directo probabilidad de enunciados como estos:

"Sólo el 1,2% de la distribución posterior de las diferencias es prácticamente equivalente a cero"

y

"El 95% más creíble diferencias no son todos prácticamente equivalente a cero (es decir, el 95% del IDH y la CUERDA no se superponen) y por lo tanto rechazamos cero". (nótese la distinción entre la probabilidad de instrucción de la distribución posterior, frente a la posterior decisión basada en que la declaración)

También puede aceptar una diferencia de cero, para fines prácticos, si el 95% más creíble valores son prácticamente equivalentes ot cero.

2B) UN segundo Bayesiano opción es Bayesiana de la hipótesis nula de la prueba. (Observe que el método anterior fue no se llama "prueba de hipótesis"!) Bayesiana de la hipótesis nula de la prueba hace una comparación de modelos Bayesianos de una distribución previa que asume la diferencia sólo puede ser cero en contra de una alternativa antes de la distribución que supone la diferencia podría ser que algunos difusa gama de posibilidades. El resultado de un modelo de comparación (por lo general) depende muy fuertemente en la elección de alternativas de distribución, y por lo tanto cuidado justificación debe hacerse para la elección de la alternativa anterior. Lo mejor es usar al-menos-medianamente informado de los priores tanto para el nula y alternativa, de modo que la comparación de los modelos es realmente significativos. Tenga en cuenta que la comparación de los modelos proporciona información diferente a la estimación de las diferencias entre los grupos debido a que el modelo de comparación es abordar una cuestión diferente. Por lo tanto, incluso con un modelo de comparación, usted todavía desea proporcionar a la distribución posterior de la magnitud de las diferencias entre los grupos debido a la que su público quiere saber la magnitud de la diferencia y su incertidumbre (intervalo creíble), independientemente de si o no usted decidió rechazar o aceptar una diferencia de cero.

Puede haber maneras de hacer un Bayesiano hipótesis nula de la prueba de la Stan/PUNTAS/MCMC de salida, pero no sé en este caso. Por ejemplo, uno podría tratar de un Salvaje-Dickey aproximación a un factor de Bayes, pero que se basan en el conocimiento previo de la densidad de las diferencias, que requeriría de algún análisis matemático o adicional de la MCMC aproximación desde la previa.

Los dos métodos para decidir acerca de los valores null se discutió en el cap. 12 de DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/. Pero yo realmente no quiero esta discusión para obtener desviada por un debate acerca de la "correcta" forma de evaluar los valores null; sólo son diferentes y proporcionan diferentes tipos de información. El punto principal de mi respuesta es punto 1 anterior: Mire la parte posterior de la distribución de las diferencias entre los grupos.

3voto

Drag0n Puntos 21

Siguiente, PARA que la etiqueta, esto debería haber sido escrito como un comentario a @John K. Kruschke, pero ya los comentarios son difíciles de estructura. Lo siento.

  • @John K. Kruschke escribe: Simplemente por el post-procesamiento de los MCMC de la cadena de...

lower_CredI y upper_CredI en el post original se calcula como la que se menciona en el pleno de la MCMC cadenas y son sólo ligeramente reformatear para una mejor comparación con lme de salida. Mientras que a favor de IDH, estos son simples cuantiles; con la simétrica posterior en este ejemplo no hace una gran diferencia.

  • La CUERDA y el tamaño del efecto

He visto que las aplicaciones de los comités de ética se potencia estadística fue calculada sin que se indique la hipótesis sobre el tamaño del efecto. Incluso para el caso en que no hay ninguna manera alrededor de la definición de un "clínicamente relevante efecto", es difícil explicar el concepto a los investigadores médicos. Es un poco más fácil para los no-inferioridad de los ensayos, pero estos no son tan a menudo objeto de un estudio.

Así que estoy bastante seguro de que la introducción de CUERDAS no será aceptable - otro de los supuestos, la gente no puede mantener más de un número en mente. Factores de Bayes puede trabajar, porque no es sólo un número para llevar a casa como los p-valores de antes.

  • Los priores

Estoy sorprendida que ni @John K. Kruschke ni @Ben Goodrich desde el equipo de Stan mención de los priores; la mayoría de los trabajos sobre el tema pedir para una discusión detallada del estado de la sensibilidad a la hora de presentar los resultados.

Sería bueno si en la próxima edición de su libro - esperemos que con Stan - usted puede agregar cuadros de "Cómo publicar este (en un no-estadístico de papel) con 100 palabras" para los ejemplos seleccionados. Cuando iba a tomar su capítulo 23.1 por palabra, una típica investigación médica de papel de 100 páginas y figuras de largo...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X