31 votos

Estimación del intervalo de confianza binomial: ¿por qué no es simétrico?

He utilizado el siguiente código de r para estimar los intervalos de confianza de una proporción binomial porque entiendo que eso sustituye a un "cálculo de potencia" cuando se diseñan curvas de características operativas del receptor que buscan la detección de enfermedades en una población.

n es 150, y la enfermedad, creemos, tiene una prevalencia del 25% en la población. He calculado los valores para una sensibilidad del 75% y una especificidad del 90% (porque eso es lo que parece hacer la gente).

    binom.test(c(29,9), p=0.75, alternative=c("t"), conf.level=0.95)

    binom.test(c(100, 12), p=0.90, alternative=c("t"), conf.level=0.95)

También he visitado este sitio:

http://statpages.org/confint.html

Que es una página java que calcula intervalos de confianza binomiales, y da la misma respuesta.

De todos modos, después de este largo montaje, quiero preguntar por qué los intervalos de confianza no son simétricos, por ejemplo, la sensibilidad es

   95 percent confidence interval:
   0.5975876 0.8855583 

   sample estimate probability: 0.7631579 

Lo siento si es una pregunta básica, pero en todas partes parece que sugieren que serán simétricos, y un colega mío parece pensar que también lo serán.

27voto

Senseful Puntos 116

Para ver por qué no debería ser simétrico, piense en la situación en la que $p=0.9$ y obtienes 9 aciertos en 10 pruebas. Entonces $\hat{p}=0.9$ y el IC del 95% para $p$ es [0,554, 0,997]. El límite superior no puede ser mayor que 1 obviamente, por lo que la mayor parte de la incertidumbre debe caer a la izquierda de $\hat{p}$ .

22voto

J Wynia Puntos 4679

Se cree que son simétricos porque a menudo se utiliza una aproximación normal. Ésta funciona bastante bien en el caso de que p esté en torno a 0,5. binom.test por otro lado, informa de los intervalos "exactos" de Clopper-Pearson, que se basan en la distribución F (véase aquí para las fórmulas exactas de ambos enfoques). Si implementáramos el intervalo de Clopper-Pearson en R sería algo como (ver Nota: ):

Clopper.Pearson <- function(x, n, conf.level){
    alpha <- (1 - conf.level) / 2
    QF.l <- qf(1 - alpha, 2*n - 2*x + 2, 2*x)
    QF.u <- qf(1 - alpha, 2*x + 2, 2*n - 2*x)

    ll <- if (x == 0){
          0
    } else { x / ( x + (n-x+1)*QF.l ) }

    uu <- if (x == 0){
          0
    } else { (x+1)*QF.u / ( n - x + (x+1)*QF.u ) }

    return(c(ll, uu))
}

Se ve tanto en el enlace como en la aplicación que la fórmula para el límite superior y el inferior son completamente diferentes. El único caso de intervalo de confianza simétrico es cuando p=0,5. Utilizando las fórmulas del enlace y teniendo en cuenta que en este caso $n = 2\times x$ es fácil derivar a ti mismo cómo viene.

Personalmente lo entendí mejor mirando los intervalos de confianza basados en un enfoque logístico. Los datos binomiales se modelan generalmente utilizando una función de enlace logit, definida como:

$${\rm logit}(x) = \log\! \bigg( \frac{x}{1-x} \bigg)$$

Esta función de enlace "mapea" el término de error en una regresión logística a una distribución normal. Como consecuencia, los intervalos de confianza en el marco logístico son simétricos en torno a los valores logit, al igual que en el marco clásico de la regresión lineal. La transformación logit se utiliza exactamente para poder utilizar toda la teoría basada en la normalidad en torno a la regresión lineal.

Después de hacer la transformación inversa:

$${\rm logit}^{-1}(x) = \frac{e^x}{1+e^{x}}$$

Vuelves a tener un intervalo asimétrico. Ahora bien, estos intervalos de confianza están realmente sesgados. Su cobertura no es la esperada, especialmente en los límites de la distribución binomial. Sin embargo, como ilustración te muestran por qué es lógico que una distribución binomial tenga intervalos de confianza asimétricos.

Un ejemplo en R:

logit <- function(x){ log(x/(1-x)) }
inv.logit <- function(x){ exp(x)/(1+exp(x)) }
x <- c(0.2, 0.5, 0.8)
lx <- logit(x)
upper <- lx + 2
lower <- lx - 2

logxtab <- cbind(lx, upper, lower)
logxtab # the confidence intervals are symmetric by construction
xtab <- inv.logit(logxtab)
xtab # back transformation gives asymmetric confidence intervals

Nota: : De hecho, R utiliza la distribución beta, pero ésta es completamente equivalente y computacionalmente un poco más eficiente. La implementación en R es, por tanto, diferente a la que muestro aquí, pero da exactamente el mismo resultado.

10voto

jldugger Puntos 7490

Allí son intervalos de confianza simétricos para la distribución Binomial: la asimetría no es forzada, a pesar de todas las razones ya mencionadas. Los intervalos simétricos suelen considerarse inferiores en el sentido de que

  1. Aunque son numéricamente simétricos, no son simétricos en la probabilidad es decir, sus coberturas de una cola difieren entre sí. Esto -una consecuencia necesaria de la posible asimetría de la distribución Binomial- es el quid de la cuestión.

  2. A menudo uno de los extremos tiene que ser irreal (menor que 0 o mayor que 1), como señala @Rob Hyndman.

Dicho esto, sospecho que los IC numéricamente simétricos podrían tener algunas buenas propiedades, como tender a ser más cortos que los probabilísticamente simétricos en algunas circunstancias.

9voto

@Joris mencionó el intervalo simétrico o "asintótico", que es probablemente el que estás esperando. @Joris también mencionó los intervalos "exactos" de Clopper-Pearson y te dio una referencia que se ve muy bien. Hay otro intervalo de confianza para proporciones que probablemente encontrarás (ten en cuenta que tampoco es simétrico), el intervalo "Wilson" que es un tipo de intervalo asintótico basado en la inversión de la prueba de puntuación. Los puntos finales del intervalo resuelven (en $p$ ) la ecuación $$ (\hat{p} - p)/\sqrt{p(1-p)}=\pm z_{\alpha/2} $$

De todos modos, puedes conseguir los tres en R con lo siguiente:

library(Hmisc)
binconf(29, 38, method = "asymptotic")
binconf(29, 38, method = "exact")
binconf(29, 38, method = "wilson")

Tenga en cuenta que el método "wilson" es el mismo intervalo de confianza utilizado por prop.test sin la corrección de continuidad de Yates:

prop.test(29, 38, correct = FALSE)

Ver aquí para el manual gratuito de SPLUS + R de Laura Thompson que acompaña a Categorical Data Analysis de Agresti en el que se discuten estas cuestiones con gran detalle.

7voto

La distribución binomial es simplemente pas simétrica, pero este hecho surge especialmente para $p$ cerca de $0$ o $1$ y para los pequeños $n$ La mayoría de la gente lo utiliza para $p\approx 0.5$ y por eso la confusión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X