7 votos

¿Límites para la varianza de la población?

Supongamos que tengo yo.yo.d. las muestras $x_1$, $\ldots$, $x_n$ para (potencialmente no normal) variable aleatoria $X$ finitos momentos. Podemos utilizar estos ejemplos para la construcción de un imparcial estimaciones de la población media y la varianza de la población $$ \bar{x} = n^{-1} \sum_{i=1}^n x_i \qquad\text{y}\qquad s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 \enspace. $$ Sin hacer ninguna suposición sobre la distribución de $X$, es posible construir probabilística de los límites de la población, mediante el uso de la desigualdad de Chebyshev (ver, por ejemplo, la wikipedia o el documento original).

Mi pregunta es: ¿tal probabilística de los límites existen para la varianza de la población? En otras palabras, podemos decir que con una probabilidad de $\delta$ de la varianza de la población $\sigma^2$ será en un intervalo de $[L(\delta,\{x_i\}),U(\delta,\{x_i\})]$? Y si es así, ¿cuáles son las funciones de $L$ $U$ que describen el límite inferior y superior?

Para distribuciones normales de la varianza de la muestra sigue una $\sigma^2 \chi^2_{n-1} (n-1)^{-1}$ distribución. Esto puede ser usado para construir intervalos de confianza. Sin embargo, yo estoy buscando más general de los límites que se aplican también a los parámetros normales.

5voto

Jeff Bauer Puntos 236

El general asintótica resultado de la distribución asintótica de la varianza de la muestra es (ver este post)

$$\sqrt n(\hat v - v) \xrightarrow{d} N\left(0,\mu_4 - v^2\right)$$

donde aquí, he utilizado la notación $v\equiv \sigma^2$ para evitar confusiones con los cuadrados, y donde $\mu_4 = \mathrm{E}\left((X_i -\mu)^4\right)$. Por lo tanto, por el teorema de asignación continua

$$\frac {n(\hat v - v)^2}{\mu_4 - v^2} \xrightarrow{d} \chi^2_1 $$

Entonces, la aceptación de la aproximación,

$$P\left(\frac {n(\hat v - v)^2}{\mu_4 - v^2}\leq \chi^2_{1,1-a}\right)=1-a$$

El término en paréntesis nos dará una ecuación de segundo grado en $v$ que se incluye el término desconocido $\mu_4$. La aceptación de una mayor aproximación, se puede estimar a partir de la muestra. A continuación, vamos a obtener

$$P\left(Av^2 + Bv +\Gamma\leq 0 \right)=1-a$$

Las raíces del polinomio son

$$v^*_{1,2}= \frac {-B \pm \sqrt {B^2 -4A\Gamma}}{2A}$$

y nuestra $1-a$ intervalo de confianza para la varianza de la población se

$$\max\Big\{0,\min\{v^*_{1,2}\}\Big\}\leq \sigma^2 \leq \max\{v^*_{1,2}\}$$

dado que la probabilidad de que el polinomio cuadrático es menor que cero, es igual a (en nuestro caso, donde $A>0$) la probabilidad de que la varianza de la población se encuentra entre las raíces del polinomio.


Estudio De Monte Carlo

Para mayor claridad, denotan $\chi^2_{1,1-a}\equiv z$.

Un poco de álgebra nos da que

$$A = n+z, \;\;\ B = -2n\hat v,\;\; \Gamma = n\hat v^2 -z \hat \mu_4$$

lo que conduce a

$$v^*_{1,2}= \frac {n\hat v \pm \sqrt {nz(\hat \mu_4-\hat v^2)+z^2\hat \mu_4}}{n+z}$$

Para $a=0.05$ tenemos $\chi^2_{1,1-a}\equiv z = 3.84$

Me generaron $10,000$ de las muestras de cada uno de tamaño $n=100$ a partir de una distribución Gamma con forma de parámetros $k=3$ y el parámetro de escala de $\theta = 2$. La media real es de $\mu = 6$, y la verdadera varianza es $v=\sigma^2 =12$.

Resultados:
La distribución muestral de la varianza de la muestra tenía un largo camino por delante para llegar a ser normal, pero esto es lo esperado para el tamaño pequeño de la muestra elegida. Su valor promedio, aunque se $11.88$, muy cerca del valor verdadero.

La estimación de obligado fue menor que la verdadera variación, en $1,456$ de las muestras, mientras que el límite inferior es mayor que la verdadera varianza sólo $17$ veces. Así que el verdadero valor se perdió por la $CI$ $14.73$ % de las muestras, debido, principalmente, a undershooting, dando un nivel de confianza de $85$%, que es un $~10$ puntos porcentuales del empeoramiento de la tensión nominal nivel de confianza de $95$%.

En promedio, el límite inferior fue de $7.20$, mientras que en promedio el límite superior se $15.68$. El promedio de la longitud de la IC fue de $8.47$. Su longitud mínima fue de $2.56$, mientras que su longitud máxima fue de $34.52$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X