Teoría sobre intervalos de confianza óptimos
Los intervalos de confianza se forman a partir de cantidades fundamentales que son funciones de los datos y del parámetro de interés que tienen una distribución que no depende de los parámetros del problema. Los "intervalos" de confianza son un caso especial de la clase más amplia de confianza establece que no tienen por qué ser intervalos conectados. Sin embargo, para simplificar, restringiremos la presente respuesta a los casos en los que el conjunto de confianza es un único intervalo (es decir, un intervalo de confianza).
Supongamos que queremos formar un intervalo de confianza para el parámetro desconocido $\phi$ con un nivel de confianza $1-\alpha$ utilizando los datos $\mathbf{x}$ . Consideremos una cantidad pivotante continua $H(\mathbf{x}, \phi)$ con una distribución que tiene función cuantil $Q_H$ . (Obsérvese que esta función no depende del parámetro $\phi$ o los datos, ya que se trata de una cantidad pivotal). Utilizando la cantidad fundamental, podemos elegir cualquier valor $0 \leqslant \theta \leqslant \alpha$ y formar un intervalo de probabilidad a partir de la función cuantil. A continuación, "invertimos" la expresión de la desigualdad para convertirla en una declaración de intervalo para el parámetro de interés:
$$\begin{align} 1-\alpha &= \mathbb{P}(Q_H(\theta) \leqslant H(\mathbf{X}, \phi) \leqslant Q_H(1-\alpha+\theta)) \\[6pt] &= \mathbb{P}(L_\mathbf{X}(\alpha, \theta) \leqslant \phi \leqslant U_\mathbf{X}(\alpha, \theta)). \\[6pt] \end{align}$$
Sustituyendo los datos observados $\mathbf{x}$ da la forma general del intervalo de confianza:
$$\text{CI}_\phi(1-\alpha) \equiv \Big[ L_\mathbf{x}(\alpha, \theta), U_\mathbf{x}(\alpha, \theta) \Big].$$
Las funciones $L_\mathbf{x}$ y $U_\mathbf{x}$ son funciones de límite inferior y superior para el intervalo, y dependen del nivel de confianza para el intervalo y de nuestra elección de $\theta$ . Este último parámetro representa el área de la cola izquierda utilizada en el intervalo de probabilidad inicial para la cantidad fundamental, y puede variarse en el intervalo anterior. Si queremos formar el intervalo de confianza óptimo (más corto) con el nivel de confianza $1-\alpha$ tenemos que resolver el siguiente problema de optimización:
$$\underset{0 \leqslant \theta \leqslant \alpha}{\text{Minimise}} \ \text{Length}(\theta) \quad \quad \quad \quad \quad \text{Length}(\theta) \equiv U_\mathbf{x}(\alpha, \theta) - L_\mathbf{x}(\alpha, \theta)$$
En general, el valor de minimización $\hat{\theta}$ dependerá de los datos $\mathbf{x}$ y el valor $\alpha$ determinar el nivel de confianza. La longitud del intervalo de confianza óptimo (más corto) resultante dependerá igualmente de los datos y del nivel de confianza. Más adelante veremos que, en algunos casos, el punto de optimización no depende en absoluto de los valores de los datos, pero incluso en este caso la longitud resultante del intervalo optimizado depende de los datos y del nivel de confianza (tal y como cabría esperar).
En los problemas en los que interviene una cantidad fundamental continua, esta optimización suele poder resolverse mediante el método de cálculo estándar. (Y, afortunadamente, para algunos intervalos el trabajo ya está hecho en algunas funciones de la base de datos stat.extend
paquete). A continuación presentamos algunos ejemplos de intervalos de confianza para la media y la desviación típica de la población para datos normales. Suponiendo que la parte de optimización conduce a un valor minimizador para todos los valores de los datos, se obtendrá un intervalo de confianza que es el intervalo más corto formado a partir de la inversión de la cantidad pivotal inicial. También mostraremos cómo calcular estos intervalos directamente a partir de las R
funciones. Es importante señalar que habrá otros intervalos de confianza formados con otros métodos que pueden ser más cortos para muestras concretas. $^\dagger$
Ejemplo 1 (IC de la media poblacional para datos normales): Supongamos que observamos datos $X_1,...,X_n \sim \text{IID N}(\mu, \sigma^2)$ se sabe que proceden de una distribución normal con parámetros desconocidos. Para formar un IC para el parámetro de la media $\mu$ podemos utilizar la conocida cantidad pivotal:
$$\sqrt{n} \cdot \frac{\bar{X}_n - \mu}{S_n} \sim \text{St}(n-1).$$
Supongamos que $t_{n-1, \alpha}$ denotan el punto crítico de la distribución T con $n-1$ grados de libertad y con cola superior $\alpha$ . Utilizando la cantidad fundamental anterior, y eligiendo cualquier valor $0 \leqslant \theta \leqslant \alpha$ tenemos:
$$\begin{align} 1-\alpha &= \mathbb{P} \Bigg( -t_{n-1, \theta} \leqslant \sqrt{n} \cdot \frac{\bar{X}_n - \mu}{S_n} \leqslant t_{n-1, \alpha-\theta} \Bigg) \\[6pt] &= \mathbb{P} \Bigg( \bar{X}_n - \frac{t_{n-1, \alpha-\theta}}{\sqrt{n}} \cdot S_n \leqslant \mu \leqslant \bar{X}_n + \frac{t_{n-1, \theta}}{\sqrt{n}} \cdot S_n \Bigg), \\[6pt] \end{align}$$
dando el intervalo de confianza:
$$\text{CI}_\mu(1-\alpha) = \Bigg[ \bar{x}_n - \frac{t_{n-1, \alpha-\theta}}{\sqrt{n}} \cdot s_n , \ \bar{x}_n + \frac{t_{n-1, \theta}}{\sqrt{n}} \cdot s_n \Bigg],$$
con función de longitud:
$$\text{Length}(\theta) = ( t_{n-1, \alpha-\theta} + t_{n-1, \theta}) \cdot \frac{s_n}{\sqrt{n}}.$$
Para minimizar esta función, podemos observar que la función del punto crítico es una función convexa de su área de cola, lo que significa que la función de longitud se maximiza en el punto en el que las áreas superiores de cola de las dos partes son iguales. (Dejo al lector que realice los pasos de cálculo pertinentes para demostrarlo). Esto da la solución:
$$\alpha - \hat{\theta} = \hat{\theta} \quad \quad \implies \quad \quad \hat{\theta} = \frac{\alpha}{2}.$$
Así, podemos confirmar que el intervalo de confianza óptimo (más corto) en este caso es el intervalo de confianza simétrico:
$$\text{CI}_\mu(1-\alpha) = \Bigg[ \bar{x}_n \pm \frac{t_{n-1, \alpha/2}}{\sqrt{n}} \cdot s_n \Bigg].$$
En este caso concreto, vemos que el intervalo simétrico estándar (con cada área de cola igual) es el intervalo de confianza óptimo. Variar las áreas relativas de las colas alejándolas de las áreas iguales aumenta la longitud del intervalo, por lo que no es aconsejable. Este intervalo de confianza estándar se puede programar utilizando la función CONF.mean
en la función stat.extend
paquete.
#Generate some data
set.seed(1)
n <- 60
MEAN <- 12
SDEV <- 3
DATA <- rnorm(n, mean = MEAN, sd = SDEV)
#Compute 95% confidence interval for the mean
library(stat.extend)
CONF.mean(alpha = 0.05, x = DATA)
Confidence Interval (CI)
95.00% CI for mean parameter for infinite population
Interval uses 60 data points from data DATA with sample variance = 6.5818
and assumed kurtosis = 3.0000
[10.6225837668173, 14.0231144933285]
Ejemplo 2 (CI de la desviación típica de la población para datos normales): Continuando con el problema anterior, supongamos que ahora queremos formar un CI para el parámetro de la desviación típica $\sigma$ . Para ello podemos utilizar la conocida cantidad pivote:
$$\sqrt{n-1} \cdot \frac{S_n}{\sigma} \sim \text{Chi}(n-1).$$
Supongamos que $\chi_{n-1, \alpha}$ denotan el punto crítico de la distribución chi con $n-1$ grados de libertad y con cola superior $\alpha$ . Utilizando la cantidad fundamental anterior, y eligiendo cualquier valor $0 \leqslant \theta \leqslant \alpha$ tenemos:
$$\begin{align} 1-\alpha &= \mathbb{P} \Bigg( \chi_{n-1, \theta} \leqslant \sqrt{n-1} \cdot \frac{S_n}{\sigma} \leqslant \chi_{n-1, 1-\alpha+\theta} \Bigg) \\[6pt] &= \mathbb{P} \Bigg( \frac{\sqrt{n-1} \cdot S_n}{\chi_{n-1, 1-\alpha+\theta}} \leqslant \sigma \leqslant \frac{\sqrt{n-1} \cdot S_n}{\chi_{n-1, \theta}} \Bigg), \\[6pt] \end{align}$$
dando el intervalo de confianza:
$$\text{CI}_{\sigma}(1-\alpha) = \Bigg[ \frac{\sqrt{n-1} \cdot s_n}{\chi_{n-1, 1-\alpha+\theta}}, \ \frac{\sqrt{n-1} \cdot s_n}{\chi_{n-1, \theta}} \Bigg],$$
con función de longitud:
$$\text{Length}(\theta) = \Bigg( \frac{1}{\chi_{n-1, \theta}} - \frac{1}{\chi_{n-1, 1-\alpha+\theta}} \Bigg) \cdot \sqrt{n-1} \cdot s_n.$$
Esta función puede minimizarse numéricamente para obtener el valor de minimización $\hat{\theta}$ que proporciona el intervalo de confianza óptimo (más corto) para la desviación típica de la población. Al contrario que en el caso de un intervalo de confianza para la media de la población, el intervalo óptimo en este caso no tiene áreas de cola iguales para la cola superior e inferior. Este problema se examina en Tate y Klett (1959) donde los autores buscan el intervalo correspondiente para la varianza de la población. Este intervalo de confianza puede programarse utilizando el CONF.var
en la función stat.extend
paquete.
#Compute 95% confidence interval for the variance
CONF.var(alpha = 0.05, x = DATA, kurt = 3)
Confidence Interval (CI)
95.00% CI for variance parameter for infinite population
Interval uses 60 data points from data DATA with sample variance = 6.5818
and assumed kurtosis = 3.0000
Computed using nlm optimisation with 8 iterations (code = 3)
[4.50233916286611, 9.41710949707062]
$^\dagger$ Para verlo, supongamos que tenemos un parámetro $\theta \in \Theta$ y considerar la clase de intervalos de confianza construidos de la siguiente manera. Elija un suceso $Y \in \mathscr{Y}$ utilizando una variable aleatoria exógena $Y$ con probabilidad fija $\mathbb{P}(Y = \mathscr{Y}) = \alpha$ y elegir algún punto $\mathbf{x}_0$ para los datos observables de interés. A continuación, forme el intervalo:
$$\text{CI}(1-\alpha) = \begin{cases} [\theta_0] & & & \text{if } \mathbf{x} = \mathbf{x}_0 \text{ or } Y \in \mathscr{Y}, \\[6pt] \Theta & & & \text{if } \mathbf{x} \neq \mathbf{x}_0 \text{ and } Y \notin \mathscr{Y}. \\[6pt] \end{cases}$$
Suponiendo que $\mathbf{x}$ es continua tenemos $\mathbb{P}(\mathbf{x} \neq \mathbf{x}_0) = 0$ por lo que el intervalo tiene la probabilidad de cobertura requerida para todos los $\theta \in \Theta$ . Si $\mathbf{x} = \mathbf{x}_0$ entonces este intervalo está compuesto por un único punto y por tanto tiene longitud cero. Esto demuestra que es posible formular un intervalo de confianza con longitud cero en un resultado de datos individual.