10 votos

¿Calcular la "probabilidad de cobertura real" es lo mismo que calcular un "intervalo creíble"?

Estaba leyendo un libro de texto de estadística de nivel básico. En el capítulo sobre la estimación de máxima verosimilitud de la proporción de éxito en datos con distribución binomial, daba una fórmula para calcular un intervalo de confianza y luego mencionaba despreocupadamente

Considere su probabilidad de cobertura real, es decir, la probabilidad de que el método produzca un intervalo que capture el verdadero valor del parámetro. Esto puede ser bastante menos que el valor nominal.

Y continúa con una sugerencia para construir un "intervalo de confianza" alternativo, que presumiblemente contiene la probabilidad de cobertura real.

Me enfrenté por primera vez a la idea de probabilidad de cobertura nominal y real. Haciendo preguntas viejas aquí, creo que conseguí entenderlo: hay dos conceptos diferentes que llamamos probabilidad, el primero es lo probable que es que un evento aún no ocurrido produzca un resultado dado, y el segundo es lo probable que es que la conjetura de un agente observador para el resultado de un evento ya ocurrido sea cierta. También parecía que los intervalos de confianza sólo miden el primer tipo de probabilidad, y que algo llamado "intervalos creíbles" mide el segundo tipo de probabilidad. Supuse sumariamente que los intervalos de confianza son los que calculan la "probabilidad de cobertura nominal" y los intervalos creíbles son los que cubren la "probabilidad de cobertura real".

Pero tal vez he interpretado mal el libro (no está del todo claro si los diferentes métodos de cálculo que ofrece son para un intervalo de confianza y un intervalo creíble, o para dos tipos diferentes de intervalo de confianza), o las otras fuentes que he utilizado para llegar a mi comprensión actual. Especialmente un comentario que recibí en otra pregunta,

Intervalos de confianza para los frecuentistas, creíbles para los bayesianos

me hizo dudar de mis conclusiones, ya que el libro no describía un método bayesiano en ese capítulo.

Así que, por favor, aclare si mi entendimiento es correcto, o si he cometido un error lógico en el camino.

8voto

jasonmray Puntos 1303

No tiene nada que ver con los intervalos de confianza bayesianos frente a los frecuentistas. Un intervalo de confianza del 95% (digamos) se define como el que da al menos 95% de cobertura sea cual sea el valor real del parámetro $\pi$ . Así, cuando la cobertura nominal es del 95%, la cobertura real puede ser del 97% cuando $\pi=\pi_1$ , el 96,5% cuando $\pi=\pi_2$ pero para ningún valor de $\pi$ es inferior al 95%. El problema (es decir, una discrepancia entre la cobertura nominal y la real) surge con distribuciones discretas como la binomial.

A modo de ejemplo, considere la observación de $x$ éxitos de $n$ ensayos binomiales con probabilidad de éxito desconocida $\pi$ : $$ \begin{array}{c,c,c} x & \pi_\mathrm{U} & \Pr(X= x | \pi=0.7) & I(\pi_\mathrm{U}\leq 0.7)\\ 0 & 0.3930378 & 0.000729 & 0\\ 1 & 0.5818034 & 0.010206 & 0\\ 2 & 0.7286616 & 0.059535 & 1\\ 3 & 0.8468389 & 0.185220 & 1\\ 4 & 0.9371501 & 0.324135 & 1\\ 5 & 0.9914876 & 0.302526 & 1\\ 6 & 1.0000000 & 0.117649 & 1\\ \end{array} $$ La primera columna muestra los posibles valores observados de $x$ . El segundo muestra la información exacta † $95\%$ superior ‡ límite de confianza $\pi_\mathrm{U} =\pi: [\Pr(X>x | \pi)=0.95]$ que se calcularía en cada caso. Supongamos ahora que $\pi=0.7$ la tercera columna muestra la probabilidad de cada valor observado de $x$ bajo este supuesto; el cuarto muestra para qué casos el intervalo de confianza calculado cubre el verdadero valor del parámetro, marcándolos con un $1$ . Si se suman las probabilidades de los casos en los que el intervalo de confianza cubre el valor real, se obtiene la cobertura real, $0.989065$ . Para diferentes valores reales de $\pi$ La cobertura real será diferente:

coverages

La cobertura nominal sólo se alcanza cuando los valores reales de los parámetros coinciden con los límites superiores obtenidos.

[Acabo de releer tu pregunta y me he dado cuenta de que el autor dice que el actual puede ser menos que la probabilidad de cobertura nominal. Así que creo que se trata de un método aproximado para calcular el intervalo de confianza, aunque lo que he dicho arriba sigue siendo válido. El gráfico podría sugerir que se informe de un nivel de confianza medio de aproximadamente $98\%$ ¿pero promediando sobre los valores de un parámetro desconocido?]

† Exacta en el sentido de que la cobertura real nunca es inferior a la nominal para cualquier valor de $\pi$ & igual a ella para algunos valores de $\pi$ - El sentido de @Unwisdom, no el de @Stephane.

‡ Los intervalos con límites superiores e inferiores se utilizan más comúnmente, por supuesto; pero son un poco más complicados de explicar, y sólo hay un intervalo exacto a considerar con sólo un límite superior. (Véase Blaker (2000), "Confidence curves and improved exact confidence intervals for discrete distributions", Revista Canadiense de Estadística , 28 4 y las referencias).

6voto

Unwisdom Puntos 371

En general, la probabilidad de cobertura real nunca será igual a la probabilidad nominal cuando se trabaja con una distribución discreta.

El intervalo de confianza se define en función de los datos. Si se trabaja con la distribución binomial, sólo hay un número finito de resultados posibles ( $ n+1$ para ser precisos), por lo que sólo hay un número finito de intervalos de confianza posibles. Dado que el parámetro $ p $ es continua, es bastante fácil ver que la probabilidad de cobertura (que es una función de $ p $ ) no puede hacer más que ser aproximadamente el 95% (o lo que sea).

En general, es cierto que los métodos basados en el CLT tendrán probabilidades de cobertura inferiores al valor nominal, pero otros métodos pueden ser realmente más conservadores.

3voto

patfla Puntos 1

Creo que la diferencia está en realidad en el uso de las aproximaciones que se hacen al calcular los intervalos de confianza. Por ejemplo, si utilizamos el IC bastante estándar de

$$\text{estimate}\pm 1.96 \times \text {estimated standard error}$$

Podemos llamarlo "intervalo de confianza del 95%". Sin embargo, lo normal es que aquí se hagan varias aproximaciones. Si no hacemos las aproximaciones, podemos calcular la cobertura real. Una situación típica es subestimar el error estándar. Entonces los intervalos son demasiado estrechos para capturar el valor verdadero con un 95% de probabilidad. Puede que sólo capten el valor real con una probabilidad del 85%, por ejemplo. La probabilidad de "cobertura real" puede calcularse mediante algún tipo de simulación monte carlo (por ejemplo, generando $1000$ conjuntos de datos de la muestra utilizando un valor verdadero elegido, luego calcular el IC del 95% para cada uno, y encontrar que $850$ contenía realmente el valor verdadero).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X