37 votos

Distribución asintótica de la varianza de la muestra no normal

Se trata de un tratamiento más general de la cuestión planteada por esta pregunta . Después de derivar la distribución asintótica de la varianza muestral, podemos aplicar el método Delta para llegar a la distribución correspondiente para la desviación estándar.

Que una muestra de tamaño $n$ de i.i.d. no normal variables aleatorias $\{X_i\},\;\; i=1,...,n$ con la media $\mu$ y la varianza $\sigma^2$ . Establezca la media y la varianza de la muestra como $$\bar x = \frac 1n \sum_{i=1}^nX_i,\;\;\; s^2 = \frac 1{n-1} \sum_{i=1}^n(X_i-\bar x)^2$$

Sabemos que $$E(s^2) = \sigma^2, \;\;\; \operatorname {Var}(s^2) = \frac{1}{n} \left(\mu_4 - \frac{n-3}{n-1}\sigma^4\right)$$

donde $\mu_4 = E(X_i -\mu)^4$ y restringimos nuestra atención a las distribuciones para las que los momentos que deben existir y ser finitos, existen y son finitos.

¿Sostiene que

$$\sqrt n(s^2 - \sigma^2) \rightarrow_d N\left(0,\mu_4 - \sigma^4\right)\;\; ?$$

37voto

Jeff Bauer Puntos 236

Para evitar las dependencias que surgen cuando consideramos la varianza de la muestra, escribimos

$$(n-1)s^2 = \sum_{i=1}^n\Big((X_i-\mu) -(\bar x-\mu)\Big)^2$$

$$=\sum_{i=1}^n\Big(X_i-\mu\Big)^2-2\sum_{i=1}^n\Big((X_i-\mu)(\bar x-\mu)\Big)+\sum_{i=1}^n\Big(\bar x-\mu\Big)^2$$

y después de una pequeña manipulación,

$$=\sum_{i=1}^n\Big(X_i-\mu\Big)^2 - n\Big(\bar x-\mu\Big)^2$$

Por lo tanto,

$$\sqrt n(s^2 - \sigma^2) = \frac {\sqrt n}{n-1}\sum_{i=1}^n\Big(X_i-\mu\Big)^2 -\sqrt n \sigma^2- \frac {\sqrt n}{n-1}n\Big(\bar x-\mu\Big)^2 $$

Manipulando,

$$\sqrt n(s^2 - \sigma^2) = \frac {\sqrt n}{n-1}\sum_{i=1}^n\Big(X_i-\mu\Big)^2 -\sqrt n \frac {n-1}{n-1}\sigma^2- \frac {n}{n-1}\sqrt n\Big(\bar x-\mu\Big)^2 $$

$$=\frac {n\sqrt n}{n-1}\frac 1n\sum_{i=1}^n\Big(X_i-\mu\Big)^2 -\sqrt n \frac {n-1}{n-1}\sigma^2- \frac {n}{n-1}\sqrt n\Big(\bar x-\mu\Big)^2$$

$$=\frac {n}{n-1}\left[\sqrt n\left(\frac 1n\sum_{i=1}^n\Big(X_i-\mu\Big)^2 -\sigma^2\right)\right] + \frac {\sqrt n}{n-1}\sigma^2 -\frac {n}{n-1}\sqrt n\Big(\bar x-\mu\Big)^2$$

El término $n/(n-1)$ se convierte en la unidad asintóticamente. El término $\frac {\sqrt n}{n-1}\sigma^2$ es determinista y llega a cero cuando $n \rightarrow \infty$ .

También tenemos $\sqrt n\Big(\bar x-\mu\Big)^2 = \left[\sqrt n\Big(\bar x-\mu\Big)\right]\cdot \Big(\bar x-\mu\Big)$ . El primer componente converge en distribución a una Normal, el segundo converge en probabilidad a cero. Entonces, por el teorema de Slutsky, el producto converge en probabilidad a cero,

$$\sqrt n\Big(\bar x-\mu\Big)^2\xrightarrow{p} 0$$

Nos quedamos con el término

$$\left[\sqrt n\left(\frac 1n\sum_{i=1}^n\Big(X_i-\mu\Big)^2 -\sigma^2\right)\right]$$

Alertado por un ejemplo letal ofrecido por @whuber en un comentario a esta respuesta Queremos asegurarnos de que $(X_i-\mu)^2$ no es constante. Whuber señaló que si $X_i$ es un Bernoulli $(1/2)$ entonces esta cantidad es una constante. Por lo tanto, excluyendo las variables para las que esto ocurre (quizás otras dicotómicas, no sólo $0/1$ binario?), para el resto tenemos

$$\mathrm{E}\Big(X_i-\mu\Big)^2 = \sigma^2,\;\; \operatorname {Var}\left[\Big(X_i-\mu\Big)^2\right] = \mu_4 - \sigma^4$$

por lo que el término investigado es objeto habitual del clásico Teorema Central del Límite, y

$$\sqrt n(s^2 - \sigma^2) \xrightarrow{d} N\left(0,\mu_4 - \sigma^4\right)$$

Nota: el resultado anterior, por supuesto, también es válido para muestras con distribución normal, pero en este último caso también disponemos de un resultado de distribución chi-cuadrado de muestra fina.

17voto

mark Puntos 232

Ya tiene una respuesta detallada a su pregunta, pero permítame ofrecerle otra que la acompañe. En realidad, es posible una prueba más corta basada en el hecho de que la distribución de

$$S^2 = \frac{1}{n-1} \sum_{i=1}^n \left(X_i - \bar{X} \right)^2 $$

no depende de $E(X) = \xi$ digamos. Asintóticamente, tampoco importa si cambiamos el factor $\frac{1}{n-1}$ a $\frac{1}{n}$ que haré por conveniencia. Entonces tenemos

$$\sqrt{n} \left(S^2 - \sigma^2 \right) = \sqrt{n} \left[ \frac{1}{n} \sum_{i=1}^n X_i^2 - \bar{X}^2 - \sigma^2 \right]$$

Y ahora suponemos sin pérdida de generalidad que $\xi = 0$ y observamos que

$$ \sqrt{n} \bar{X}^2 = \frac{1}{\sqrt{n}} \left( \sqrt{n} \bar{X} \right)^2$$

tiene límite de probabilidad cero, ya que el segundo término está acotado en probabilidad (por el CLT y el teorema del mapeo continuo), es decir, es $O_p(1)$ . El resultado asintótico se deduce ahora del teorema de Slutzky y de la CLT, ya que

$$\sqrt{n} \left[ \frac{1}{n} \sum X_i^2 - \sigma^2 \right] \xrightarrow{D} \mathcal{N} \left(0, \tau^2 \right)$$

donde $\tau^2 = Var \left\{ X^2\right\} = \mathbb{E} \left(X^4 \right) - \left( \mathbb{E} \left(X^2\right) \right)^2$ . Y eso lo hará.

7voto

Aaron Puntos 36

Las excelentes respuestas de Alecos et JohnK ya deriva el resultado que buscas, pero me gustaría señalar algo más sobre la distribución asintótica de la varianza de la muestra.

Es habitual que los resultados asintóticos se presenten utilizando la distribución normal, lo que resulta útil para enunciar los teoremas. Sin embargo, en la práctica, el propósito de una distribución asintótica para una estadística muestral es que permite obtener una distribución aproximada cuando $n$ es grande. Hay muchas opciones que se pueden hacer para la aproximación de la muestra grande, ya que muchas distribuciones tienen la misma forma asintótica. En el caso de la varianza muestral, considero que una excelente distribución aproximada para grandes $n$ está dada por:

$$\frac{S_n^2}{\sigma^2} \sim \frac{\text{Chi-Sq}(\text{df} = DF_n)}{DF_n},$$

donde $DF_n \equiv 2 / \mathbb{V}(S_n^2 / \sigma^2) = 2n / ( \kappa - (n-3)/(n-1))$ et $\kappa = \mu_4 / \sigma^4$ es el parámetro de curtosis. Esta distribución es asintóticamente equivalente a la aproximación normal derivada del teorema (la distribución chi-cuadrado converge a la normal cuando los grados de libertad tienden a infinito). A pesar de esta equivalencia, esta aproximación tiene otras propiedades que le gustaría que tuviera su distribución de aproximación:

  • A diferencia de la aproximación normal derivada directamente del teorema, esta distribución tiene el soporte correcto para la estadística de interés. La varianza de la muestra es no negativa, y esta distribución tiene un soporte no negativo.

  • En el caso de que los valores subyacentes se distribuyan normalmente, esta aproximación es en realidad la distribución muestral exacta. (En este caso tenemos $\kappa = 3$ que da $DF_n = n-1$ que es la forma estándar utilizada en la mayoría de los textos). Por lo tanto, constituye un resultado que es exacto en un caso especial importante, sin dejar de ser una aproximación razonable en casos más generales.


Derivación del resultado anterior: Los resultados de la distribución aproximada de la media y la varianza de la muestra se discuten ampliamente en O'Neill (2014) y este documento proporciona derivaciones de muchos resultados, incluyendo la presente distribución aproximada.

Esta derivación parte del resultado límite de la pregunta:

$$\sqrt{n} (S_n^2 - \sigma^2) \sim \text{N}(0, \sigma^4 (\kappa - 1)).$$

Reordenando este resultado obtenemos la aproximación:

$$\frac{S_n^2}{\sigma^2} \sim \text{N} \Big( 1, \frac{\kappa - 1}{n} \Big).$$

Dado que la distribución chi-cuadrado es asintóticamente normal, como $DF \rightarrow \infty$ que tenemos:

$$\frac{\text{Chi-Sq}(DF)}{DF} \rightarrow \frac{1}{DF} \text{N} ( DF, 2DF ) = \text{N} \Big( 1, \frac{2}{DF} \Big).$$

Tomando $DF_n \equiv 2 / \mathbb{V}(S_n^2 / \sigma^2)$ (que da la fórmula anterior) da $DF_n \rightarrow 2n / (\kappa - 1)$ que garantiza que la distribución chi-cuadrado es asintóticamente equivalente a la aproximación normal del teorema de la limitación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X