Una versión muy sencilla del teorema central limitado es la siguiente $$ \sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2) $$ que es Lindeberg-Lévy CLT. No entiendo por qué hay un $\sqrt{n}$ en el lado izquierdo. Y Lyapunov CLT dice $$ \frac{1}{s_n} \sum_{i=1}^{n} (X_i - \mu_i) \ \xrightarrow{d}\ \mathcal{N}(0,\;1) $$ pero por qué no $\sqrt{s_n}$ ? ¿Alguien podría decirme cuáles son estos factores, como $\sqrt{n}$ et $\frac{1}{s_n}$ ¿cómo los incluimos en el teorema?
Respuestas
¿Demasiados anuncios?¡¡Buena pregunta (+1)!!
Recordarás que para variables aleatorias independientes $X$ et $Y$ , $Var(X+Y) = Var(X) + Var(Y)$ et $Var(a\cdot X) = a^2 \cdot Var(X)$ . Así que la varianza de $\sum_{i=1}^n X_i$ es $\sum_{i=1}^n \sigma^2 = n\sigma^2$ y la varianza de $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ es $n\sigma^2 / n^2 = \sigma^2/n$ .
Esto es para el desviación . Para estandarizar una variable aleatoria, se divide por su desviación estándar. Como sabes, el valor esperado de $\bar{X}$ es $\mu$ por lo que la variable
$$ \frac{\bar{X} - E\left( \bar{X} \right)}{\sqrt{ Var(\bar{X}) }} = \sqrt{n} \frac{\bar{X} - \mu}{\sigma}$$ tiene valor esperado 0 y varianza 1. Así que si tiende a una gaussiana, tiene que ser la gaussiana estándar $\mathcal{N}(0,\;1)$ . Su formulación en la primera ecuación es equivalente. Multiplicando el lado izquierdo por $\sigma$ se fija la varianza en $\sigma^2$ .
En cuanto a su segundo punto, creo que la ecuación mostrada anteriormente ilustra que hay que dividir por $\sigma$ y no $\sqrt{\sigma}$ para normalizar la ecuación, explicando por qué se utiliza $s_n$ (el estimador de $\sigma)$ y no $\sqrt{s_n}$ .
Adición: @whuber sugiere que se discuta el por qué de la escala por $\sqrt{n}$ . Lo hace allí Pero como la respuesta es muy larga, intentaré captar la esencia de su argumento (que es una reconstrucción del pensamiento de Moivre).
Si añade un gran número $n$ de +1 y -1, se puede aproximar la probabilidad de que la suma sea $j$ por el conteo elemental. El logaritmo de esta probabilidad es proporcional a $-j^2/n$ . Así que si queremos que la probabilidad anterior converja a una constante como $n$ es grande, tenemos que utilizar un factor de normalización en $O(\sqrt{n})$ .
Utilizando herramientas matemáticas modernas (posteriores a De Moivre), se puede ver la aproximación mencionada anteriormente observando que la probabilidad buscada es
$$P(j) = \frac{{n \choose n/2+j}}{2^n} = \frac{n!}{2^n(n/2+j)!(n/2-j)!}$$
que aproximamos por La fórmula de Stirling
$$ P(j) \approx \frac{n^n e^{n/2+j} e^{n/2-j}}{2^n e^n (n/2+j)^{n/2+j} (n/2-j)^{n/2-j} } = \left(\frac{1}{1+2j/n}\right)^{n+j} \left(\frac{1}{1-2j/n}\right)^{n-j}. $$
$$ \log(P(j)) = -(n+j) \log(1+2j/n) - (n-j) \log(1-2j/n) \\ \sim -2j(n+j)/n + 2j(n-j)/n \propto -j^2/n.$$
Existe una bonita teoría sobre qué tipo de distribuciones pueden ser distribuciones límite de sumas de variables aleatorias. El bonito recurso es el siguiente libro de Petrov, que personalmente disfruté enormemente.
Resulta que si se investigan los límites de este tipo $$\frac{1}{a_n}\sum_{i=1}^nX_n-b_n, \quad (1)$$ donde $X_i$ son variables aleatorias independientes, las distribuciones de los límites son sólo ciertas distribuciones.
Hay mucha matemática dando vueltas entonces, que se reduce a varios teoremas que caracterizan completamente lo que sucede en el límite. Uno de estos teoremas se debe a Feller:
Teorema Dejemos que $\{X_n;n=1,2,...\}$ sea una secuencia de variables aleatorias independientes, $V_n(x)$ sea la función de distribución de $X_n$ y $a_n$ sea una secuencia de constantes positivas. Para que
$$\max_{1\le k\le n}P(|X_k|\ge\varepsilon a_n)\to 0, \text{ for every fixed } \varepsilon>0$$
et
$$\sup_x\left|P\left(a_n^{-1}\sum_{k=1}^nX_k<x\right)-\Phi(x)\right|\to 0$$
es necesario y suficiente que
$$\sum_{k=1}^n\int_{|x|\ge \varepsilon a_n}dV_k(x)\to 0 \text{ for every fixed }\varepsilon>0,$$
$$a_n^{-2}\sum_{k=1}^n\left(\int_{|x|<a_n}x^2dV_k(x)-\left(\int_{|x|<a_n}xdV_k(x)\right)^2\right)\to 1$$
et
$$a_n^{-1}\sum_{k=1}^n\int_{|x|<a_n}xdV_k(x)\to 0.$$
Este teorema te da entonces una idea de lo que $a_n$ debería ser así.
La teoría general en el libro está construida de tal manera que la constante normativa está restringida de cualquier manera, pero los teoremas finales que dan necesario y suficiente condiciones, no dejan lugar a la constante de normalización que no sea $\sqrt{n}$ .
S $_n$ representa la desviación estándar de la muestra para la media de la muestra. s $_n$$ ^2 $ is the sample variance for the sample mean and it equals S$ _n $$^2$ /n. Donde S $_n$$ ^2 $ is the sample estimate of the population variance. Since s$ _n $ =S$ _n$/√n que explica cómo aparece √n en la primera fórmula. Nótese que habría una σ en el denominador si el límite fuera
N(0,1) pero el límite viene dado por N(0, σ $^2$ ). Dado que S $_n$ es una estimación consistente de σ se utiliza en la segunda ecuación para sacar σ del límite.
Intuitivamente, si $Z_n \to \mathcal N(0, \sigma^2)$ para algunos $\sigma^2$ deberíamos esperar que $\mbox{Var}(Z_n)$ es aproximadamente igual a $\sigma^2$ Parece una expectativa bastante razonable, aunque no creo que sea necesaria en general. La razón de la $\sqrt n$ en la primera expresión es que la varianza de $\bar X_n - \mu$ va a $0$ como $\frac 1 n$ y así el $\sqrt n$ es inflar la varianza para que la expresión sólo tenga varianza igual a $\sigma^2$ . En la segunda expresión, el término $s_n$ se define como $\sqrt{\sum_{i = 1} ^ n \mbox{Var}(X_i)}$ mientras que la varianza del numerador crece como $\sum_{i = 1} ^ n \mbox{Var}(X_i)$ por lo que tenemos de nuevo que la varianza de toda la expresión es una constante ( $1$ en este caso).
Esencialmente, sabemos que algo "interesante" está ocurriendo con la distribución de $\bar X_n := \frac 1 n \sum_i X_i$ Pero si no lo centramos y escalamos correctamente no podremos verlo. He oído describir esto a veces como la necesidad de ajustar el microscopio. Si no ampliamos (por ejemplo) $\bar X - \mu$ por $\sqrt n$ entonces sólo tenemos $\bar X_n - \mu \to 0$ en la distribución por la ley débil; un resultado interesante por sí mismo pero no tan informativo como el CLT. Si inflamos por cualquier factor $a_n$ que está dominado por $\sqrt n$ , seguimos obteniendo $a_n(\bar X_n - \mu) \to 0$ mientras que cualquier factor $a_n$ que domina $\sqrt n$ da $a_n(\bar X_n - \mu) \to \infty$ . Resulta que $\sqrt n$ es el aumento justo para poder ver lo que sucede en este caso (nota: toda la convergencia aquí es en la distribución; hay otro nivel de aumento que es interesante para la convergencia casi segura, que da lugar a la ley del logaritmo iterado).