8 votos

Intervalos de credibilidad

Intento entender cuándo son útiles los intervalos de credibilidad.

¿Existen ejemplos de situaciones del mundo real en las que los intervalos de credibilidad sean mejores que los intervalos de confianza? Tenga en cuenta que por "útil", me refiero a maximizar algún objetivo concreto del mundo real (así que no, por ejemplo, tratar de obtener intervalos posteriores para las creencias subjetivas de uno, que puede ser útil, pero no es algo que estoy buscando)

Gracias

1voto

Jay Querido Puntos 589

El problema de comparar conjuntos creíbles e intervalos de confianza es que no son comparaciones de manzanas con manzanas o de manzanas con naranjas. Son una comparación de manzanas con tractores. Sólo son sustitutos el uno del otro en determinadas circunstancias.

El uso principal de un intervalo de confianza es en la investigación científica. Aunque las empresas los utilizan, su valor es menor ya que a menudo es difícil elegir una acción basada en un intervalo. Los métodos estadísticos empresariales aplicados tienden a favorecer las estimaciones puntuales por razones prácticas, aunque los intervalos se incluyan en los informes. Cuando se incluyen, la mayoría de las veces son como advertencias.

Los conjuntos creíbles tienden a ser menos utilizados en los métodos bayesianos, ya que se informa de toda la parte posterior, así como de los marginales. Se informan y proporcionan descriptivamente una sensación de los datos si no se proporciona un gráfico de la posterior, pero no tienen la misma utilidad que los intervalos de confianza porque significan algo diferente.

Hay cuatro casos en los que se tiende a ver un conjunto creíble en lugar de un intervalo de confianza, pero no estoy seguro de que la mayoría de ellos sean prácticos. Ocurre, pero no a menudo.

La primera ya se ha mencionado. Hay veces que un intervalo de confianza parece producir un intervalo patológico. Este uso no me gusta tanto. Es importante recordar que los procedimientos de confianza producen intervalos válidos al menos $1-\alpha$ por ciento de las veces a la repetición infinita, pero el precio de eso puede ser un sinsentido total a veces. No estoy seguro de que eso sea una buena razón para descartar un método frecuentista.

Los eventos raros o generalizados son un ejemplo típico. Si un porcentaje suficientemente alto de una población hace o deja de hacer algo, puede parecer que todo el mundo o nadie hace algo. Como los intervalos frecuentistas se construyen en torno a estimaciones puntuales, y la muestra no tiene varianza, el intervalo carece de rango. Me parece inquietante abandonar un método porque a veces produce un resultado que otros pueden no aceptar. La virtud de un método frecuentista es que toda la información procede de los datos. Lo que ocurre es que los datos no tenían suficiente información.

Sin embargo, esa no es la suma de todas las patologías. Otras patologías pueden fomentar el uso de un método bayesiano porque puede existir un método frecuencial apropiado pero no se puede encontrar. Por ejemplo, la coordenada media muestral de los puntos de un donut centrado en $(0,0,0)$ debe estar cerca de $(0,0,0)$ pero no hay ningún donut allí. Ahí es donde está el agujero del donut. Un rango construido alrededor de un punto no soportado puede fomentar una alternativa bayesiana si la información sobre la forma no puede ser incluida en la solución no bayesiana por alguna razón.

La segunda razón tiene un análogo frecuencial parcial, el caso de la información externa. En el caso general, en el que existe investigación externa sobre un parámetro de interés, tanto un prior bayesiano como un meta-análisis frecuencial producen intervalos utilizables. La dificultad ocurre cuando el conocimiento externo no está contenido en los datos, per se, sino en el conocimiento externo.

Algunos conocimientos se apoyan en la teoría y en las observaciones de estudios no relacionados, pero deben mantenerse lógicamente. Por ejemplo, consideremos el caso de un objeto bien diseñado que debería oscilar entre 1 y 0. Si llega a 0, entonces termina. El siguiente valor $x_{t+1}=\beta{x}_t+\epsilon,0<\beta<1$ . Sólo puede tener un valor de 1 en $t=0$ . Puede darse el caso de que $x_t$ puede subir o bajar, pero nunca puede llegar a 1 de nuevo y se detiene en 0. Además, porque está bien diseñado, $\beta=.9999999\pm{.00000001}$ . Por supuesto, podríamos habernos engañado sobre la verdadera tolerancia. Ese es el problema cuando se utiliza un método bayesiano.

En el caso del producto bien diseñado, los intervalos de confianza son demasiado conservadores y sobreestiman el rango del intervalo. En ese caso, puede ser trivialmente cierto que un intervalo del 95% lo cubre al menos el 95% de las veces porque puede ser tan amplio, dado que se excluyó la información previa de su construcción, que debería cubrir el parámetro casi el 100% de las veces.

El tercer caso se da cuando algo es un hecho puntual en lugar de un hecho repetitivo. Curiosamente, se puede crear un caso en el que un intervalo de confianza es el intervalo válido para una parte, y un conjunto creíble es el intervalo válido para otra parte con los mismos datos.

Considere una empresa de fabricación que produce algún producto que falla de vez en cuando. Quiere garantizar que, al menos el 99% de las veces, puede recuperarse del fallo basándose en un intervalo. Un intervalo de confianza proporciona esa garantía. Sin embargo, la parte que compra un producto que ha fallado puede querer un intervalo que tenga un 99% de posibilidades de ser el intervalo correcto para solucionar el problema, ya que éste no se repetirá, y sólo debe funcionar esta vez. Les preocupan los datos que tienen y el único evento que experimentan. No les importa la eficacia del producto para los demás clientes de la empresa.

El cuarto caso puede no tener análogos en el mundo real, pero tiene que ver con la diferencia en el tipo de pérdida que se experimenta. La mayoría de los procedimientos frecuentistas son procedimientos mini-max. Minimizan la cantidad máxima de riesgo a la que se está expuesto. Esto también es cierto para los procedimientos de confianza. La mayoría de las estimaciones bayesianas de intervalo minimizan la pérdida media. Si su preocupación es minimizar la pérdida media por usar un intervalo construido por una muestra no representativa, entonces debería usar un conjunto creíble. Si lo que le preocupa es asumir el menor riesgo posible, entonces debería utilizar un intervalo de confianza.

Pero volviendo a las manzanas y los tractores, estos no ocurren tan a menudo. Los procedimientos frecuentistas superaron el paradigma bayesiano preexistente porque funcionan en la mayoría de los entornos para la mayoría de los problemas. Los procedimientos bayesianos son claramente superiores en algunos casos, pero no necesariamente los intervalos bayesianos.

Los casos del mundo real para los conjuntos creíbles bayesianos son cosas como la búsqueda y el rescate, porque pueden actualizarse rápida y fácilmente y pueden utilizar conocimientos sin investigación previa. También puede ser superior cuando faltan cantidades significativas de datos porque los métodos bayesianos pueden tratar un punto de datos que falta como si fuera un parámetro. Esto puede evitar un intervalo patológico creado por la pérdida de información, ya que puede marginar el impacto de los datos que faltan.

Se trata de una suposición personal basada en la observación de que los métodos bayesianos no se utilizan mucho en comparación, pero no estoy tan convencido de que un intervalo tenga el mismo valor en el lado bayesiano de la moneda.

Los métodos frecuentistas se construyen en torno a los puntos. Los métodos bayesianos se basan en distribuciones. Las distribuciones contienen más información que un solo punto. Los métodos bayesianos pueden dividir la inferencia y la probabilidad de las acciones realizadas en función de esas probabilidades.

Si un intervalo es útil, se puede aplicar una función de pérdida a la parte posterior, y se pueden descubrir los límites del intervalo. En ese caso, se trata de un formalismo para apoyar una acción adecuada dados los datos.

No sospecho que el uso específico se produzca tanto, excepto en la gestión de riesgos, donde los rangos son esenciales. No sé si se da mucho en ese caso.

Los intervalos de confianza aportan más información que las estimaciones puntuales. Los conjuntos de confianza son una técnica de reducción de la información.

Un intervalo de confianza de $7\pm{3}$ no está dando la misma información que un conjunto creíble de $[6,7]\cup[7.5,9]$ para los mismos datos.

0voto

Björn Puntos 457

Un ejemplo clásico es cuando se ha probado un fármaco frente a un placebo en un ensayo clínico aleatorio de un año de duración y había 1000 pacientes en cada grupo. Un acontecimiento adverso que la gente temía que pudiera ser un efecto secundario del tratamiento se produjo en 0 pacientes del grupo de tratamiento y en 0 pacientes del grupo de placebo. Disponemos de las tasas en que se produjeron estos acontecimientos en los grupos de placebo de estudios anteriores similares en la misma población, en los que también eran muy raros, pero a veces se producían.

¿Qué se puede decir de los odds ratios (o rate ratio o hazard ratio)? Una estimación frecuentista sería que no tenemos realmente una estimación y tal vez nuestro intervalo de confianza sea algo así como $(-\infty, \infty)$ .

Por el contrario, un análisis bayesiano sensato hará algo más informativo siempre que tengamos al menos alguna información previa débil sobre la tasa probable de placebo y el posible tamaño de un efecto del tratamiento. Con un nivel plausible de información previa, un bayesiano a menos que en este tipo de escenario ya sugiera que las odds ratio extremas ya no son muy probables.

Por el contrario, véase, por ejemplo, el ejemplo TGN1412 (véanse, por ejemplo, las páginas 2 y 92 a 94 aquí ou Senn, S. (2008). Lecciones de TGN1412 y TARGET: Implicaciones para los estudios observacionales y el meta-análisis. Pharmaceutical Statistics, 7(4):294-301. ), donde 6 de 6 pacientes con un evento adverso con un fármaco de prueba comparado con 0 de 2 pacientes con placebo con un evento no es estadísticamente significativo al nivel unilateral del 2,5% (prueba exacta de Fisher). Sin embargo, un análisis bayesiano sensato sugiere que estamos bastante seguros de que los efectos secundarios se debieron al fármaco.

0voto

Mathstudent Puntos 166

La respuesta de Bjorn sugiere que un procedimiento de confianza frecuentista no puede manejar datos dispersos, ni puede incorporar datos históricos. Para ilustrar esto, Bjorn ofrece el ejemplo de TGN1412,

(véase, por ejemplo, las páginas 2 y 92 a 94 aquí o Senn, S. (2008). Lecciones de TGN1412 y TARGET: Implicaciones para los estudios estudios observacionales y meta-análisis. Pharmaceutical Statistics, 7(4):294-301. ), donde 6 de 6 pacientes con un acontecimiento adverso con un fármaco de prueba en comparación con 0 de 2 pacientes con placebo con un evento.

Utilizando sólo los datos proporcionados anteriormente (asumiendo una exposición igual para todos los sujetos y que un sujeto puede experimentar sólo 1 evento de interés), la figura siguiente representa las curvas de confianza (valores p unilaterales) que prueban las hipótesis relativas a la tasa de eventos adversos a nivel de población $p$ para los tratamientos activo y placebo. También identifica los límites de confianza del 97,5%. Esto se forma invirtiendo la FCD de una distribución binomial basada en la $\hat{p}_{pbo}=0$ y $\hat{p}_{act}=1$ estimaciones puntuales. La relación de tasas estimada es $\hat{p}_{pbo}/\hat{p}_{act}=0$ y un límite de confianza superior conservador del 97,5% es la relación de los límites de confianza individuales, $0.84/0.54=1.56$ . Obsérvese la estimación del punto y del intervalo $0(0,1.56)$ para la relación de tasas no es $0(-\infty,\infty)$ .

enter image description here

Esta figura también muestra las densidades posteriores bayesianas (intervalos creíbles de todos los niveles) para la tasa de eventos adversos para cada tratamiento, basadas en una prioridad uniforme arbitraria en cada grupo. Como estimadores, las medias posteriores están sesgadas hacia 0,5, lo que se evidencia en las estimaciones puntuales observadas. También hay que destacar que el límite superior de credibilidad para la tasa de eventos de placebo es notablemente más corto que el límite de confianza. Este límite creíble puede no tener una buena probabilidad de cobertura en experimentos repetidos, lo que pone en duda que debamos confiar en su rendimiento para este resultado experimental. Basándonos en $100,000$ Las simulaciones de Monte Carlo, la cola igual de dos lados $95\%$ El intervalo de credibilidad para la tasa de incidencia es $(0.0096, 0.85)$ . Considerando la prioridad como una función de peso definida por el usuario que suaviza la probabilidad, las densidades posteriores pueden verse como funciones de valor p aproximadas. La elección de la interpretación de un intervalo creíble se reduce a lo que uno quiere medir utilizando la probabilidad, el experimentador o el experimento.

Basándose en estos datos y en una distribución uniforme a priori, una regla de decisión posterior estricta llevaría a concluir que la proporción de la tasa real fija desconocida es menor que $1$ . Ambos métodos pueden incorporar datos históricos relevantes. Al codificar los datos históricos y actuales a través de la verosimilitud, no está claro qué función de peso arbitraria definida por el usuario (a priori) se debe elegir al suavizar la verosimilitud para construir los intervalos posteriores.


Apéndice : A petición de Bjorn, también podemos considerar el escenario en el que ambos grupos tienen cero eventos observados. Al igual que antes, los intervalos creíbles son preocupantemente más cortos que los intervalos de confianza, y las medias posteriores son el resultado de estimadores sesgados.

enter image description here

El reto ahora es construir una estimación puntual y de intervalo para la tasa de incidencia. La estimación de máxima verosimilitud es $\frac{\hat{p}_{pbo}}{\hat{p}_{act}}=\frac{0}{0}$ que podríamos definir como igual a $1$ . Sin embargo, construir límites de confianza superior e inferior conservadores como antes produciría valores de la forma $\frac{c}{0}$ .

El análisis bayesiano de la relación de tasas evita este problema debido a las distribuciones uniformes a priori para cada tasa. Esto equivale a incorporar pruebas experimentales hipotéticas considerando el escenario en el que cada grupo de tratamiento hubiera reclutado $2$ temas adicionales, y $1$ sujeto en cada grupo experimentó el evento de interés. Por supuesto, esto no coincide con el experimento real observado, pero proporciona estimaciones puntuales conservadoras (conservadoras en el sentido de que la tasa de eventos adversos no está subestimada).

Este mismo examen de las pruebas experimentales hipotéticas puede realizarse tomando como referencia la distribución de muestreo binomial exacta, que se presenta en la figura siguiente. En este escenario hipotético, un conservador $95\%$ El intervalo de confianza puede construirse utilizando los cocientes de los límites de confianza para las tasas individuales, produciendo $\bigg(\frac{\hat{p}^L_{pbo}}{\hat{p}^U_{act}},\frac{\hat{p}^U_{pbo}}{\hat{p}^L_{act}}\bigg)=\Big(\frac{0.006}{0.53},\frac{0.81}{0.003}\Big)=(0.011,270)$ . Otro enfoque consistiría en invertir la función de distribución acumulativa para el estimador de máxima verosimilitud de la relación de tasas mientras se perfila el parámetro molesto $p_{act}$ . Basado en $100,000$ Las simulaciones de Monte Carlo, la cola igual de dos lados $95\%$ El intervalo de credibilidad para la relación de tasas es $(0.068, 68.25)$ .

enter image description here

Si, en cambio, investigamos la diferencia en las tasas de incidencia, entonces no se necesita ninguna prueba experimental hipotética al construir los límites de confianza basados en la FCD binomial. Si un sujeto puede experimentar más de 1 evento o tenemos una exposición variable para cada sujeto (o ambas cosas), entonces se debe utilizar un modelo de Poisson o Binomio Negativo en su lugar.

Tratar los parámetros fijos a nivel de población como variables aleatorias da la apariencia de que se tiene en cuenta más incertidumbre, pero a menudo conduce a límites creíbles (límites de confianza aproximados) que son demasiado cortos.

0voto

cxzvbn Puntos 6

Si le preocupa la tasa de recuperación de una determinada enfermedad, un intervalo creíble es lo que necesita cuando quiere decir

Hay un 95% de posibilidades de que la tasa de recuperación esté entre X e Y.

No se puede decir esto utilizando el intervalo de confianza. Con un intervalo de confianza del 95%, sólo se puede decir

Hay un 95% de probabilidades de que el siguiente conjunto de muestras de pacientes tenga una tasa de recuperación entre X e Y (tachada para no estropear el escenario de generación de muestras -- que ASUMIR mi distribución de la muestra es la verdadera distribución de la población, el 95% de probabilidad de que la próxima muestra extraída de la población esté dentro del intervalo X a Y)

Si dibujamos $N$ conjuntos de muestras y calcular para cada conjunto un intervalo de confianza, el 95% de esos intervalos cubren la verdadera tasa de recuperación, pero no sé si un intervalo concreto de X a Y contiene la verdadera tasa de recuperación o no. En otras palabras, sólo tengo un 95% de confianza en que la verdadera tasa de recuperación esté dentro del intervalo de confianza X a Y que he calculado a partir de mis datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X