Esta respuesta se analiza el significado de la cita y ofrece los resultados de un estudio de simulación para ilustrar y ayudar a entender lo que podría estar tratando de decir. El estudio puede ampliarse fácilmente por cualquier persona (con rudimentarios R
habilidades) para explorar otras intervalo de confianza de los procedimientos y de los otros modelos.
Dos interesantes cuestiones surgidas en este trabajo. Uno se refiere a cómo evaluar la exactitud de un intervalo de confianza del procedimiento. La impresión que uno se lleva de robustez depende de eso. Puedo mostrar dos diferentes medidas de precisión para que pueda compararlos.
El otro problema es que, aunque la confianza intervalo de procedimiento con baja confianza puede ser sólido, el correspondiente intervalo de confianza límites podría no ser robusto a todos. Intervalos tienden a funcionar bien ya que los errores se hacen en uno de los extremos a menudo contrarrestar los errores que hacen en el otro. Como un asunto práctico, usted puede estar bastante seguro de que alrededor de la mitad de su $50\%$ intervalos de confianza están cubriendo sus parámetros, pero el parámetro real podría constantemente se encuentran cerca de una particular final de cada intervalo, dependiendo de cómo la realidad se aparta de su modelo de supuestos.
Robusto tiene un significado estándar en las estadísticas:
Robustez generalmente implica la insensibilidad a las salidas de las hipótesis que rodean a un subyacente modelo probabilístico.
(Hoaglin, Mosteller y Tukey, Comprensión Robusta y Análisis Exploratorio de Datos. J. Wiley (1983), p. 2.)
Esto es consistente con la cita en la pregunta. Para entender la cita que todavía necesita saber la intención del propósito de un intervalo de confianza. Para ello, vamos a repasar lo que Gelman escribió.
Yo prefiero el 50% a 95% intervalos por 3 razones:
Computacional de la estabilidad,
Más intuitiva de evaluación (la mitad del 50% de los intervalos debe contener el verdadero valor),
Un sentido que en las aplicaciones en las que es mejor tener una idea de donde los parámetros y los valores de la predicción se, no intento un poco realista en casi una certeza.
Desde la adquisición de un sentido de los valores de la predicción no es lo que los intervalos de confianza (Ic) son destinados, me voy a centrar en conseguir un sentido de parámetro de los valores, que es lo CIs hacer. Vamos a llamar a estos "destino" de los valores. De ahí que, por definición, un CI se destina a cubrir su objetivo con una determinada probabilidad (nivel de confianza). El logro de la intención de las tasas de cobertura es el mínimo criterio para evaluar la calidad de cualquier CI procedimiento. (Además, se puede estar interesado en los típicos CI anchos. Para mantener el puesto a una longitud razonable, voy a pasar por alto este problema.)
Estas consideraciones nos invitan a estudiar cómo mucho un intervalo de confianza de cálculo podría inducir a error a nosotros en relación con el valor del parámetro de destino. La cita podría ser leído como lo que sugiere que la menor confianza de los CIs podría conservar su cobertura, incluso cuando los datos son generados por un proceso diferente al modelo. Eso es algo que podemos probar. El procedimiento es el siguiente:
Adoptar un modelo de probabilidad que incluye al menos un parámetro. Un clásico es el muestreo de una distribución Normal de las que se desconoce la media y la varianza.
Seleccione un CI procedimiento para uno o más de los parámetros del modelo. Excelente construye el IC de la media muestral y la desviación estándar de la muestra, multiplicando éste por un factor dado por una distribución t de Student.
Aplicar el procedimiento que a varios diferentes modelos, no salen mucho de la del adoptado uno, con el fin de evaluar su cobertura a través de un rango de niveles de confianza.
Como un ejemplo, yo he hecho. Me he permitido la distribución subyacente variar a lo largo de una amplia gama, desde casi Bernoulli, Uniforme, Normal, Exponencial, y todo el camino a la Lognormal. Estos incluyen distribuciones simétricas (los tres primeros) y fuertemente sesgada (los dos últimos). Para cada distribución que genera 50,000 muestras de tamaño 12. Para cada muestra, he construido dos caras de la Cei de los niveles de confianza entre el$50\%$$99.8\%$, que cubre la mayoría de las aplicaciones.
Un tema interesante que ahora surge es: ¿Cómo debemos medir cómo de bien (o mal) un CI procedimiento está realizando? Un método común que se evalúa la diferencia entre la cobertura real y el nivel de confianza. Esto puede parecer sospechosamente bueno para altos niveles de confianza, sin embargo. Por ejemplo, si usted está tratando de lograr el 99,9% de confianza, pero usted consigue solamente con un 99% de cobertura, las primas diferencia es apenas un 0,9%. Sin embargo, significa que el procedimiento no llega a cubrir el destino de diez veces más a menudo de lo que debería! Por esta razón, una de carácter más divulgativo manera de comparar coberturas debe usar algo como odds ratios. Yo uso las diferencias de logits, que son los logaritmos de las probabilidades de ocurrencia. Específicamente, cuando el nivel de confianza es $\alpha$ y la cobertura real es de $p$, luego
$$\log\left(\frac{p}{1-p}\right) - \log\left(\frac{\alpha}{1-\alpha}\right)$$
nicely captures the difference. When it is zero, the coverage is exactly the value intended. When it is negative, the coverage is too low--which means the CI is too optimistic and underestimates the uncertainty.
The question, then, is how do these error rates vary with confidence level as the underlying model is perturbed? We can answer it by plotting the simulation results. These plots quantify how "unrealistic" the "near-certainty" of a CI might be in this archetypal application.
The graphics show the same results, but the one at the left displays the values on logit scales while the one at the right uses raw scales. The Beta distribution is a Beta$(1/30,1/30)$ (which is practically a Bernoulli distribution). The lognormal distribution is the exponential of the standard Normal distribution. The normal distribution is included to verify that this CI procedure really does attain its intended coverage and to reveal how much variation to expect from the finite simulation size. (Indeed, the graphs for the normal distribution are comfortably close to zero, showing no significant deviations.)
It is clear that on the logit scale, the coverages grow more divergent as the confidence level increases. There are some interesting exceptions, though. If we are unconcerned with perturbations of the model that introduce skewness or long tails, then we can ignore the exponential and lognormal and focus on the rest. Their behavior is erratic until $\alpha$ exceeds $95\$ or so (a logit of $%3$), at which point the divergence has set in.
This little study brings some concreteness to Gelman's claim and illustrates some of the phenomena he might have had in mind. In particular, when we are using a CI procedure with a low confidence level, such as $\alpha=50\$, then even when the underlying model is strongly perturbed, it looks like the coverage will still be close to $%50\$: our feeling that such a CI will be correct about half the time and incorrect the other half is borne out. That is robust. If instead we are hoping to be right, say, $%95\$ of the time, which means we really want to be wrong only $%5\$ of the time, then we should be prepared for our error rate to be much greater in case the world doesn't work quite the way our model supposes.
Incidentally, this property of $%50\$ CIs holds in large part because we are studying symmetric confidence intervals. For the skewed distributions, the individual confidence limits can be terrible (and not robust at all), but their errors often cancel out. Typically one tail is short and the other long, leading to over-coverage at one end and under-coverage at the other. I believe that $%50\%$ la confianza de los límites de no ser ni de lejos tan robusto como los intervalos correspondientes.
Esta es la R
código que genera las parcelas. Es fácilmente modificado para el estudio de otras distribuciones, otros intervalos de confianza, y otros procedimientos de CI.
#
# Zero-mean distributions.
#
distributions <- list(Beta=function(n) rbeta(n, 1/30, 1/30) - 1/2,
Uniform=function(n) runif(n, -1, 1),
Normal=rnorm,
#Mixture=function(n) rnorm(n, -2) + rnorm(n, 2),
Exponential=function(n) rexp(n) - 1,
Lognormal=function(n) exp(rnorm(n, -1/2)) - 1
)
n.sample <- 12
n.sim <- 5e4
alpha.logit <- seq(0, 6, length.out=21); alpha <- signif(1 / (1 + exp(-alpha.logit)), 3)
#
# Normal CI.
#
CI <- function(x, Z=outer(c(1,-1), qt((1-alpha)/2, n.sample-1)))
mean(x) + Z * sd(x) / sqrt(length(x))
#
# The simulation.
#
#set.seed(17)
alpha.s <- paste0("alpha=", alpha)
sim <- lapply(distributions, function(dist) {
x <- matrix(dist(n.sim*n.sample), n.sample)
x.ci <- array(apply(x, 2, CI), c(2, length(alpha), n.sim),
dimnames=list(Endpoint=c("Lower", "Upper"),
Alpha=alpha.s,
NULL))
covers <- x.ci["Lower",,] * x.ci["Upper",,] <= 0
rowMeans(covers)
})
(sim)
#
# The plots.
#
logit <- function(p) log(p/(1-p))
colors <- hsv((1:length(sim)-1)/length(sim), 0.8, 0.7)
par(mfrow=c(1,2))
plot(range(alpha.logit), c(-2,1), type="n",
main="Confidence Interval Accuracies (Logit Scales)", cex.main=0.8,
xlab="Logit(alpha)",
ylab="Logit(coverage) - Logit(alpha)")
abline(h=0, col="Gray", lwd=2)
legend("bottomleft", names(sim), col=colors, lwd=2, bty="n", cex=0.8)
for(i in 1:length(sim)) {
coverage <- sim[[i]]
lines(alpha.logit, logit(coverage) - alpha.logit, col=colors[i], lwd=2)
}
plot(range(alpha), c(-0.2, 0.05), type="n",
main="Raw Confidence Interval Accuracies", cex.main=0.8,
xlab="alpha",
ylab="coverage-alpha")
abline(h=0, col="Gray", lwd=2)
legend("bottomleft", names(sim), col=colors, lwd=2, bty="n", cex=0.8)
for(i in 1:length(sim)) {
coverage <- sim[[i]]
lines(alpha, coverage - alpha, col=colors[i], lwd=2)
}