24 votos

¿Cuál es una forma rigurosa y matemática de obtener el intervalo de confianza más corto dado un nivel de confianza?

Después de leer la gran respuesta para esta pregunta de @Ben, estoy un poco confundido por la parte "establecer los tamaños relativos de cola como una variable de control, y luego encontrar la fórmula para la longitud del intervalo de confianza condicional a esa variable". Entiendo que esto significa que usted necesita para calcular la longitud del intervalo de confianza como una función de los tamaños relativos de cola y luego minimizar la función. Sin embargo, ¿qué es exactamente tamaños relativos de la cola ? ¿Es la relación entre las áreas de las dos colas?

Además, ¿hay otra forma de encontrar el IC más corto para un nivel de confianza dado?

Para los que estén interesados, sé que hay resultados algo relevantes que nos permiten calcular el tamaño de la muestra de forma que la longitud de un IC, digamos del 95%, no supere un cierto límite.

17voto

manku Puntos 111

En la mayoría de los casos, se utilizan intervalos de confianza (IC) simétricos a la probabilidad. Por ejemplo, un intervalo de confianza del 95 se obtiene cortando la probabilidad 0,025 de cada cola de la distribución correspondiente.

Para los IC basados en la normal simétrica y la t de Student el intervalo de probabilidad simétrica es el más corto. el más corto.

Sin embargo, observe que la frase habitual es encontrar " a 95% CI," no el 95% CI". Esto reconoce la posibilidad de alternativas a la regla de probabilidad simétrica.

IC para media normal, DE conocida. Suponga que tiene una muestra aleatoria de tamaño $n=16$ de una población normal con $\mu$ y conocido $\sigma=10.$ Entonces, si $\bar X = 103.2$ lo habitual (probabilidad-simétrica) CI para $\mu$ est $\bar X \pm 1.96(\sigma/\sqrt{n})$ o $(98.30, 108.10)$ de longitud $9.80.$

qz = qnorm(c(.025,.975));  qz
[1] -1.959964  1.959964
103.2 + qz*10/sqrt(16)
[1]  98.30009 108.09991
diff(103.2 + qz*10/sqrt(16))
[1] 9.79982

Sin embargo, otro posible IC del 95% para $\mu$ est $(98.07, 107.90)$ de longitud $9.84.$ Este intervalo también tiene un 95% de probabilidad de cobertura. Esto se hace muy raramente en práctica porque (a) requiere un poco más de trabajo, (b) a efectos prácticos el resultado es el mismo, y (c) el intervalo alternativo es li el intervalo alternativo es un poco más largo.

qz = qnorm(c(.02,.97));  qz
[1] -2.053749  1.880794
103.2 + qz*10/sqrt(16)
[1]  98.06563 107.90198
diff(103.2 + qz*10/sqrt(16))
[1] 9.836356

IC para DE normal, media desconocida. Ahora supongamos que tenemos una muestra de tamaño $n=16$ para una población normal con desconocida $\mu$ y $\sigma$ y queremos un IC del 05% para $\sigma.$ Si $S = 10.2$ entonces el IC del 95% de probabilidad simétrica para $\sigma,$ basado en $\frac{(n-1)S^2}{\sigma^2} \sim \mathsf{Chisq}(\nu=n-1=16),$ es de la forma $\left(\sqrt{\frac{(n-1)S^2}{U}}, \sqrt{\frac{(n-1)S^2}{L}}\right),$ donde $L$ y $U$ probabilidad de corte 0,025 de las colas inferior y superior, respectivamente, de $\mathsf{Chisq}(15).$ Para nuestros datos, esto equivale a $(7.53,15.79)$ de longitud $8.25.$

qc=qchisq(c(.975,.025),15); qc
[1] 27.488393  6.262138
sqrt(15*10.2^2/qc)
[1]  7.53479 15.78645
diff(sqrt(15*10.2^2/qc))
[1] 8.251661

Sin embargo, es evidente que no se trata del IC del 95% más corto basado en esta distribución chi-cuadrado. Si cortamos la probabilidad 0,03 de la cola inferior de la distribución y la probabilidad 0,02 de su cola superior, podemos obtener el IC AL 95 $(7.43, 15.49)$ de longitud $8.06.$

qc=qchisq(c(.98,.03),15); qc
[1] 28.259496  6.503225
sqrt(15*10.2^2/qc)
[1]  7.431279 15.491070
diff(sqrt(15*10.2^2/qc))
[1] 8.05979

Además, la probabilidad de recorte $0.04$ de la cola inferior $(0.01$ de la parte superior), tendríamos obtendríamos un IC de anchura $7.88.$ Pero un reparto del 4,5%-0,5% da un intervalo ligeramente mayor que ese.

Por ensayo y error (o una búsqueda en la cuadrícula) se podría encontrar (casi) el IC del 95% más corto posible. En mi experiencia, aunque tales intervalos sean más cortos, esto no es suele hacerse porque (a) supone más problemas y (b) a efectos prácticos, el resultado puede ser más o menos el mismo.

[Sin embargo, en una aplicación práctica, si nos alejáramos demasiado de cortar probabilidades iguales de las dos colas, cabe preguntarse si una confianza unilateral (que da un límite superior o inferior de confianza sobre $\sigma)$ podría ser más útil].

Adenda. Un gráfico de las longitudes de los IC del 95% para $\sigma$ contra la probabilidad recortada de la cola inferior de $\mathsf{Chisq}(15).$ La longitud mínima $7.879782$ se produce cuando la probabilidad $0.041$ se corta de la cola inferior.

enter image description here

lp = seq(0.001, .049, by=.001)
m = length(lp); len=numeric(m)
for(i in 1:m) {
  L = qchisq(lp[i], 15)
  U = qchisq(.95+lp[i], 15)
  lcl = sqrt(15*10.2^2/U)
  ucl = sqrt(15*10.2^2/L) 
  len[i] = ucl-lcl }
plot(lp, len, type="l", lwd=2)
min(len)
[1] 7.879782
lp[len==min(len)]
[1] 0.041

11voto

Aaron Puntos 36

Teoría sobre intervalos de confianza óptimos

Los intervalos de confianza se forman a partir de cantidades fundamentales que son funciones de los datos y del parámetro de interés que tienen una distribución que no depende de los parámetros del problema. Los "intervalos" de confianza son un caso especial de la clase más amplia de confianza establece que no tienen por qué ser intervalos conectados. Sin embargo, para simplificar, restringiremos la presente respuesta a los casos en los que el conjunto de confianza es un único intervalo (es decir, un intervalo de confianza).

Supongamos que queremos formar un intervalo de confianza para el parámetro desconocido $\phi$ con un nivel de confianza $1-\alpha$ utilizando los datos $\mathbf{x}$ . Consideremos una cantidad pivotante continua $H(\mathbf{x}, \phi)$ con una distribución que tiene función cuantil $Q_H$ . (Obsérvese que esta función no depende del parámetro $\phi$ o los datos, ya que se trata de una cantidad pivotal). Utilizando la cantidad fundamental, podemos elegir cualquier valor $0 \leqslant \theta \leqslant \alpha$ y formar un intervalo de probabilidad a partir de la función cuantil. A continuación, "invertimos" la expresión de la desigualdad para convertirla en una declaración de intervalo para el parámetro de interés:

$$\begin{align} 1-\alpha &= \mathbb{P}(Q_H(\theta) \leqslant H(\mathbf{X}, \phi) \leqslant Q_H(1-\alpha+\theta)) \\[6pt] &= \mathbb{P}(L_\mathbf{X}(\alpha, \theta) \leqslant \phi \leqslant U_\mathbf{X}(\alpha, \theta)). \\[6pt] \end{align}$$

Sustituyendo los datos observados $\mathbf{x}$ da la forma general del intervalo de confianza:

$$\text{CI}_\phi(1-\alpha) \equiv \Big[ L_\mathbf{x}(\alpha, \theta), U_\mathbf{x}(\alpha, \theta) \Big].$$

Las funciones $L_\mathbf{x}$ y $U_\mathbf{x}$ son funciones de límite inferior y superior para el intervalo, y dependen del nivel de confianza para el intervalo y de nuestra elección de $\theta$ . Este último parámetro representa el área de la cola izquierda utilizada en el intervalo de probabilidad inicial para la cantidad fundamental, y puede variarse en el intervalo anterior. Si queremos formar el intervalo de confianza óptimo (más corto) con el nivel de confianza $1-\alpha$ tenemos que resolver el siguiente problema de optimización:

$$\underset{0 \leqslant \theta \leqslant \alpha}{\text{Minimise}} \ \text{Length}(\theta) \quad \quad \quad \quad \quad \text{Length}(\theta) \equiv U_\mathbf{x}(\alpha, \theta) - L_\mathbf{x}(\alpha, \theta)$$

En general, el valor de minimización $\hat{\theta}$ dependerá de los datos $\mathbf{x}$ y el valor $\alpha$ determinar el nivel de confianza. La longitud del intervalo de confianza óptimo (más corto) resultante dependerá igualmente de los datos y del nivel de confianza. Más adelante veremos que, en algunos casos, el punto de optimización no depende en absoluto de los valores de los datos, pero incluso en este caso la longitud resultante del intervalo optimizado depende de los datos y del nivel de confianza (tal y como cabría esperar).

En los problemas en los que interviene una cantidad fundamental continua, esta optimización suele poder resolverse mediante el método de cálculo estándar. (Y, afortunadamente, para algunos intervalos el trabajo ya está hecho en algunas funciones de la base de datos stat.extend paquete). A continuación presentamos algunos ejemplos de intervalos de confianza para la media y la desviación típica de la población para datos normales. Suponiendo que la parte de optimización conduce a un valor minimizador para todos los valores de los datos, se obtendrá un intervalo de confianza que es el intervalo más corto formado a partir de la inversión de la cantidad pivotal inicial. También mostraremos cómo calcular estos intervalos directamente a partir de las R funciones. Es importante señalar que habrá otros intervalos de confianza formados con otros métodos que pueden ser más cortos para muestras concretas. $^\dagger$


Ejemplo 1 (IC de la media poblacional para datos normales): Supongamos que observamos datos $X_1,...,X_n \sim \text{IID N}(\mu, \sigma^2)$ se sabe que proceden de una distribución normal con parámetros desconocidos. Para formar un IC para el parámetro de la media $\mu$ podemos utilizar la conocida cantidad pivotal:

$$\sqrt{n} \cdot \frac{\bar{X}_n - \mu}{S_n} \sim \text{St}(n-1).$$

Supongamos que $t_{n-1, \alpha}$ denotan el punto crítico de la distribución T con $n-1$ grados de libertad y con cola superior $\alpha$ . Utilizando la cantidad fundamental anterior, y eligiendo cualquier valor $0 \leqslant \theta \leqslant \alpha$ tenemos:

$$\begin{align} 1-\alpha &= \mathbb{P} \Bigg( -t_{n-1, \theta} \leqslant \sqrt{n} \cdot \frac{\bar{X}_n - \mu}{S_n} \leqslant t_{n-1, \alpha-\theta} \Bigg) \\[6pt] &= \mathbb{P} \Bigg( \bar{X}_n - \frac{t_{n-1, \alpha-\theta}}{\sqrt{n}} \cdot S_n \leqslant \mu \leqslant \bar{X}_n + \frac{t_{n-1, \theta}}{\sqrt{n}} \cdot S_n \Bigg), \\[6pt] \end{align}$$

dando el intervalo de confianza:

$$\text{CI}_\mu(1-\alpha) = \Bigg[ \bar{x}_n - \frac{t_{n-1, \alpha-\theta}}{\sqrt{n}} \cdot s_n , \ \bar{x}_n + \frac{t_{n-1, \theta}}{\sqrt{n}} \cdot s_n \Bigg],$$

con función de longitud:

$$\text{Length}(\theta) = ( t_{n-1, \alpha-\theta} + t_{n-1, \theta}) \cdot \frac{s_n}{\sqrt{n}}.$$

Para minimizar esta función, podemos observar que la función del punto crítico es una función convexa de su área de cola, lo que significa que la función de longitud se maximiza en el punto en el que las áreas superiores de cola de las dos partes son iguales. (Dejo al lector que realice los pasos de cálculo pertinentes para demostrarlo). Esto da la solución:

$$\alpha - \hat{\theta} = \hat{\theta} \quad \quad \implies \quad \quad \hat{\theta} = \frac{\alpha}{2}.$$

Así, podemos confirmar que el intervalo de confianza óptimo (más corto) en este caso es el intervalo de confianza simétrico:

$$\text{CI}_\mu(1-\alpha) = \Bigg[ \bar{x}_n \pm \frac{t_{n-1, \alpha/2}}{\sqrt{n}} \cdot s_n \Bigg].$$

En este caso concreto, vemos que el intervalo simétrico estándar (con cada área de cola igual) es el intervalo de confianza óptimo. Variar las áreas relativas de las colas alejándolas de las áreas iguales aumenta la longitud del intervalo, por lo que no es aconsejable. Este intervalo de confianza estándar se puede programar utilizando la función CONF.mean en la función stat.extend paquete.

#Generate some data
set.seed(1)
n    <- 60
MEAN <- 12
SDEV <- 3
DATA <- rnorm(n, mean = MEAN, sd = SDEV)

#Compute 95% confidence interval for the mean
library(stat.extend)
CONF.mean(alpha = 0.05, x = DATA)

        Confidence Interval (CI) 

95.00% CI for mean parameter for infinite population 
Interval uses 60 data points from data DATA with sample variance = 6.5818 
and assumed kurtosis = 3.0000 

[10.6225837668173, 14.0231144933285]

Ejemplo 2 (CI de la desviación típica de la población para datos normales): Continuando con el problema anterior, supongamos que ahora queremos formar un CI para el parámetro de la desviación típica $\sigma$ . Para ello podemos utilizar la conocida cantidad pivote:

$$\sqrt{n-1} \cdot \frac{S_n}{\sigma} \sim \text{Chi}(n-1).$$

Supongamos que $\chi_{n-1, \alpha}$ denotan el punto crítico de la distribución chi con $n-1$ grados de libertad y con cola superior $\alpha$ . Utilizando la cantidad fundamental anterior, y eligiendo cualquier valor $0 \leqslant \theta \leqslant \alpha$ tenemos:

$$\begin{align} 1-\alpha &= \mathbb{P} \Bigg( \chi_{n-1, \theta} \leqslant \sqrt{n-1} \cdot \frac{S_n}{\sigma} \leqslant \chi_{n-1, 1-\alpha+\theta} \Bigg) \\[6pt] &= \mathbb{P} \Bigg( \frac{\sqrt{n-1} \cdot S_n}{\chi_{n-1, 1-\alpha+\theta}} \leqslant \sigma \leqslant \frac{\sqrt{n-1} \cdot S_n}{\chi_{n-1, \theta}} \Bigg), \\[6pt] \end{align}$$

dando el intervalo de confianza:

$$\text{CI}_{\sigma}(1-\alpha) = \Bigg[ \frac{\sqrt{n-1} \cdot s_n}{\chi_{n-1, 1-\alpha+\theta}}, \ \frac{\sqrt{n-1} \cdot s_n}{\chi_{n-1, \theta}} \Bigg],$$

con función de longitud:

$$\text{Length}(\theta) = \Bigg( \frac{1}{\chi_{n-1, \theta}} - \frac{1}{\chi_{n-1, 1-\alpha+\theta}} \Bigg) \cdot \sqrt{n-1} \cdot s_n.$$

Esta función puede minimizarse numéricamente para obtener el valor de minimización $\hat{\theta}$ que proporciona el intervalo de confianza óptimo (más corto) para la desviación típica de la población. Al contrario que en el caso de un intervalo de confianza para la media de la población, el intervalo óptimo en este caso no tiene áreas de cola iguales para la cola superior e inferior. Este problema se examina en Tate y Klett (1959) donde los autores buscan el intervalo correspondiente para la varianza de la población. Este intervalo de confianza puede programarse utilizando el CONF.var en la función stat.extend paquete.

#Compute 95% confidence interval for the variance
CONF.var(alpha = 0.05, x = DATA, kurt = 3)

        Confidence Interval (CI) 

95.00% CI for variance parameter for infinite population 
Interval uses 60 data points from data DATA with sample variance = 6.5818
and assumed kurtosis = 3.0000 
Computed using nlm optimisation with 8 iterations (code = 3) 

[4.50233916286611, 9.41710949707062]

$^\dagger$ Para verlo, supongamos que tenemos un parámetro $\theta \in \Theta$ y considerar la clase de intervalos de confianza construidos de la siguiente manera. Elija un suceso $Y \in \mathscr{Y}$ utilizando una variable aleatoria exógena $Y$ con probabilidad fija $\mathbb{P}(Y = \mathscr{Y}) = \alpha$ y elegir algún punto $\mathbf{x}_0$ para los datos observables de interés. A continuación, forme el intervalo:

$$\text{CI}(1-\alpha) = \begin{cases} [\theta_0] & & & \text{if } \mathbf{x} = \mathbf{x}_0 \text{ or } Y \in \mathscr{Y}, \\[6pt] \Theta & & & \text{if } \mathbf{x} \neq \mathbf{x}_0 \text{ and } Y \notin \mathscr{Y}. \\[6pt] \end{cases}$$

Suponiendo que $\mathbf{x}$ es continua tenemos $\mathbb{P}(\mathbf{x} \neq \mathbf{x}_0) = 0$ por lo que el intervalo tiene la probabilidad de cobertura requerida para todos los $\theta \in \Theta$ . Si $\mathbf{x} = \mathbf{x}_0$ entonces este intervalo está compuesto por un único punto y por tanto tiene longitud cero. Esto demuestra que es posible formular un intervalo de confianza con longitud cero en un resultado de datos individual.

8voto

user164061 Puntos 281

El intervalo de confianza más corto es un término ambiguo

No existe tal cosa como el intervalo de confianza más corto.

Esto se debe a que el intervalo de confianza es una función de los datos $X$ . Y aunque se puede acortar el intervalo de confianza para alguna observación concreta, esto se consigue a costa de aumentar el tamaño de los intervalos para otras posibles observaciones.

Sólo cuando se define alguna manera de aplicar algún promedio ponderado sobre todos las observaciones, entonces posiblemente (pero creo que no con certeza o al menos no fácilmente) se podría construir algún intervalo de confianza con la longitud "más corta".


Condicionamiento sobre la observación frente a condicionamiento sobre el parámetro: Contraste con intervalos creíbles, donde el intervalo más corto tiene más sentido.

Esto contrasta con los intervalos de credibilidad. Los intervalos de confianza se refieren a la probabilidad de que el parámetro se encuentre dentro del intervalo condicionado al parámetro . Los intervalos creíbles se refieren a la probabilidad de que el parámetro se encuentre dentro del intervalo condicionada a la observación .

Para los intervalos creíbles puede construir un intervalo más corto para cada observación individualmente (eligiendo el intervalo que encierra el mayor densidad de la parte posterior ). La modificación del intervalo de una observación no influye en los intervalos de las demás observaciones.

Para los intervalos de confianza se podrían hacer los intervalos más pequeños en el sentido de que estos intervalos se refieren a pruebas de hipótesis. Entonces puedes hacer los límites/intervalos de decisión más cortos (que son funciones de los parámetros, las hipótesis).


Algunas preguntas relacionadas

  • En esta pregunta...

    La lógica básica de la construcción de un intervalo de confianza

    ..el tema era obtener un 'intervalo más corto' pero no hay una solución inequívoca cuando 'más corto' no está definido inequívocamente.

    Esa misma pregunta también aclara algo sobre los "tamaños relativos de las colas". Lo que podemos controlar son las colas de la distribución de la observación condicional al parámetro. A menudo esto coincide con el intervalo de confianza*, y podemos pensar en el intervalo de confianza como la distribución en torno a la estimación puntual del parámetro.

    Sin embargo, esta simetría puede no ser necesaria, como podemos ver en un caso como el siguiente: consideremos la observación/muestra $\hat{\theta}$ a partir de una distribución parametrizada por $\theta$ siguiente $${\hat\theta \sim \mathcal{N}(\mu=\theta, \sigma^2=1+\theta^2/3)}$$ Puede verlo en la imagen siguiente (para más detalles, consulte la pregunta concreta). En esa imagen, las líneas roja y verde representan los límites del intervalo de confianza en función de los valores observados. $\hat{\theta}$ . Pero también se pueden considerar en función de $\theta$ y, de hecho, es en ese punto de vista en el que se determinan los límites (véanse las pdf condicionales proyectadas y cómo los límites encierran simétricamente el mayor $\alpha\%$ de esas pdf, pero no proporcionan un intervalo de confianza simétrico, y algunos límites pueden incluso llegar a ser infinitos).

    difficult example

  • En esta pregunta...

    ¿Hay algún ejemplo en el que los intervalos de confianza bayesianos sean obviamente inferiores a los frecuentistas?

    ... se ve una comparación entre intervalos creíbles e intervalo de confianza.

    Wasserman example

    Para una observación dada, los intervalos creíbles, cuando son el intervalo posterior de mayor densidad, son (a menudo) más cortos que los intervalos de confianza. Esto se debe a que los intervalos de confianza no necesitan coincidir con el intervalo de mayor densidad condicional de la observación. Por otra parte, observe que en la dirección vertical (para un parámetro verdadero dado) los límites del intervalo de confianza encierran un intervalo más corto.

  • *(a menudo coincide con el intervalo de confianza) Vemos un ejemplo en esta pregunta...

    Diferencias entre una predicción de densidad frecuentista y una bayesiana

    donde vemos un esquema para un intervalo (de predicción) basado en una distribución t. Hay una cierta dualidad en la construcción del intervalo:

    Podemos construir un intervalo de predicción frecuentista con la interpretación de que

    • No importa cuál sea el valor de $\mu$ y $\sigma$ es decir, el valor $X_{n+1}$ será $x\%$ del tiempo dentro del intervalo de predicción.

    sino también:

    • Dado un valor hipotético previsto $\tilde{X}_{n+1}$ en el rango de predicción, las observaciones $\bar{X}$ y $s$ (la media muestral y la desviación muestral) se producirá dentro de algún rango que se produzca $x$ por ciento de las veces. (Eso significa que sólo incluiremos los valores del intervalo de predicción para los que hagamos nuestras observaciones $x\%$ del tiempo, de tal manera que nunca fallaremos más de $x\%$ del tiempo)

    Así, en lugar de considerar la distribución de $X_{n+1}$ dados los datos $\bar{X}$ y $s$ consideramos al revés, consideramos la distribución de los datos $\bar{X}$ y $s$ dado $X_{n+1}$ .

    En la imagen vemos los límites del intervalo alrededor de la media observada (en el ejemplo, que se trata de intervalo de predicción en lugar de intervalo de confianza, punto adicional observado $X_{n+1}$ ). Pero, en realidad, los límites deberían considerarse al revés. Es la observación hipotética que está dentro de los límites de una prueba de hipótesis relacionada con cada uno de los parámetros dentro del intervalo de confianza (en el ejemplo es un intervalo de predicción).

    geometric example

6voto

Ankur Loriya Puntos 160

El intervalo de confianza más corto posible para cualquier parámetro concreto es el intervalo vacío de longitud 0.

Un intervalo de confianza no es sólo un intervalo. Es un procedimiento para construir un intervalo a partir de una muestra. Así, su procedimiento puede ser "Para esta muestra en particular, tomaré el intervalo vacío, y luego para cada otra muestra (de este experimento repetible que definitivamente estoy haciendo) tomaré aleatoriamente el intervalo vacío con probabilidad 0,05, o el conjunto de todos los valores posibles del parámetro, con probabilidad 0,95". Según la definición, se trata de un intervalo de confianza del 95%.

Por supuesto, se trata de un ejemplo tonto. Pero es importante recordar que las propiedades de un intervalo de confianza, como su longitud, son variables aleatorias. Lo que probablemente esté buscando es el intervalo con la menor esperado longitud.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X