(Mensaje cruzado desde Stats Stack, donde se hizo una pregunta similar).
¿Por qué el $\sqrt{n}$ en lugar de $n$ ? ¿Qué es esta extraña versión de una media?
Si tienes un montón de vectores perpendiculares $x_1, \dotsc, x_n$ de longitud $\ell$ entonces $ \frac{x_1 + \dotsb + x_n}{\sqrt{n}}$ es de nuevo de longitud $\ell.$ Hay que normalizar por $\sqrt{n}$ para mantener la suma en la misma escala.
Existe una profunda conexión entre las variables aleatorias independientes y los vectores ortogonales. Cuando las variables aleatorias son independientes, eso significa básicamente que son vectores ortogonales en un espacio vectorial de funciones.
(El espacio funcional al que me refiero es $L^2$ y la varianza de una variable aleatoria $X$ es sólo $\|X - \mu\|_{L^2}^2$ . Así que no es de extrañar que la varianza sea aditiva sobre variables aleatorias independientes. Al igual que $\|x + y\|^2 = \|x\|^2 + \|y\|^2$ cuando $x \perp y$ .)**
¿Por qué la distribución normal?
Una cosa que realmente me confundió durante un tiempo, y que creo que está en el centro de la cuestión, es la siguiente pregunta:
¿Por qué la suma $\frac{X_1 + \dotsb + X_n} {\sqrt{n}}$ ( $n$ grande) no le importa nada sobre el $X_i$ excepto su media y su varianza? (Momentos 1 y 2.)
Esto es similar al fenómeno de la ley de los grandes números:
$\frac{X_1 + \dotsb + X_n} {n}$ ( $n$ grande) sólo se preocupa del momento 1 (la media).
(Ambos tienen sus hipótesis que estoy suprimiendo (ver la nota al pie), pero lo más importante, por supuesto, es que el $X_i$ sea independiente .)
Una forma más elocuente de expresar este fenómeno es: en la suma $\frac{X_1 + \dotsb + X_n}{\sqrt{n}}$ Puedo reemplazar cualquiera o todos los $X_i$ con algunas otras VR, mezclando y combinando entre todo tipo de distribuciones diversas, siempre que tengan el mismo primer y segundo momento. Y no importará mientras $n$ es grande, en relación con los momentos.
Si entendemos por qué eso es cierto, entonces entendemos el teorema del límite central . Porque entonces también podemos tomar $X_i$ para ser normal con el mismo primer y segundo momento, y en ese caso sabemos $\frac{X_1 + \dotsb + X_n}{\sqrt{n}}$ es normal de nuevo para cualquier $n$ incluyendo los supergrandes $n$ . Porque la distribución normal tiene la propiedad especial ("estabilidad") de que puedes sumar dos normales independientes y obtener otra normal. Y ya está.
La explicación del fenómeno del primer y segundo momento es, en última instancia, algo de aritmética. Hay varias lentes a través de las cuales se puede elegir ver esta aritmética. La más común que la gente utiliza es la transformada de Fourier (también conocida como función característica), que tiene la sensación de "sigo los pasos, pero ¿cómo y por qué se le ocurriría a alguien?". Otro enfoque es mirar la cumulantes de $X_i$ . Allí encontramos que la distribución normal es la única distribución cuyos cumulantes superiores desaparecen, y dividiendo por $\sqrt{n}$ tiende a matar a todos los cumulantes menos a los dos primeros como $n$ se hace grande.
Aquí mostraré un enfoque más elemental. Como la suma $Z_n \overset{\text{(def)}}{=} \frac{X_1 + \dotsb + X_n}{\sqrt{n}}$ se alarga cada vez más, mostraré que todos los momentos de $Z_n$ son funciones sólo de las varianzas $\operatorname{Var}(X_i)$ y los medios $\mathbb{E}X_i$ y nada más. Ahora los momentos de $Z_n$ determinar la distribución de $Z_n$ (esto es cierto no sólo para las sumas largas independientes, sino para cualquier distribución agradable, por el Teorema de continuidad de Carleman ). Para decirlo de nuevo, estamos afirmando que como $n$ se hace grande, $Z_n$ depende únicamente del $\mathbb{E}X_i$ y el $\operatorname{Var}X_i$ . Y para demostrarlo, vamos a mostrar que $\mathbb{E}((Z_n - \mathbb{E}Z_n)^k)$ depende únicamente del $\mathbb{E}X_i$ y el $\operatorname{Var}X_i$ . Eso es suficiente, por el teorema de continuidad de Carleman.
Por comodidad, vamos a exigir que el $X_i$ tienen media cero y varianza $\sigma^2$ . Supongamos que todos sus momentos existen y están uniformemente acotados. (Sin embargo, el $X_i$ pueden ser todas distribuciones independientes diferentes).
Reclamación: Según los supuestos indicados, el $k$ momento $$\mathbb{E} \left[ \left(\frac{X_1 + \dotsb + X_n}{\sqrt{n}}\right)^k \right]$$ tiene un límite como $n \to \infty$ y ese límite es una función sólo de $\sigma^2$ . (Se no tiene en cuenta el resto de la información).
(En concreto, los valores de esos límites de momentos son simplemente los momentos de la distribución normal $\mathcal{N}(0, \sigma^2)$ : cero para $k$ impar, y $|\sigma|^k \frac{k!}{(k/2)!2^{k/2}}$ cuando $k$ está en paz. Se trata de la ecuación (1) siguiente).
Prueba: Considere $\mathbb{E} \left[ \left(\frac{X_1 + \dotsb + X_n}{\sqrt{n}}\right)^k \right]$ . Cuando se expande, se obtiene un factor de $n^{-k/2}$ por una gran suma multinomial.
$$n^{-k/2} \sum_{|\boldsymbol{\alpha}| = k} \binom{k}{\alpha_1, \dotsc, \alpha_n}\prod_{i=1}^n \mathbb{E}(X_i^{\alpha_i})$$ $$\alpha_1 + \dotsb + \alpha_n = k$$ $$(\alpha_i \geq 0)$$
(Recuerda que puedes distribuir la expectativa sobre variables aleatorias independientes. $\mathbb{E}(X^a Y^b) = \mathbb{E}(X^a)\mathbb{E}(Y^b)$ .)
Ahora bien, si alguna vez tengo como uno de mis factores un simple $\mathbb{E}(X_i)$ con el exponente $\alpha_i =1$ entonces todo ese término es cero, porque $\mathbb{E}(X_i) = 0$ por suposición. Así que necesito todos los exponentes $\alpha_i \neq 1$ para que ese término sobreviva. Eso me empuja a utilizar menos $X_i$ en cada término, porque cada término tiene $\sum \alpha_i = k$ y tengo que tener cada $\alpha_i >1$ si es $>0$ . De hecho, un poco de aritmética simple muestra que a lo sumo $k/2$ de la $\alpha_i$ puede ser distinto de cero, y eso sólo cuando $k$ es par, y cuando uso sólo dos y ceros como mi $\alpha_i$ .
Este patrón en el que sólo utilizo dos y ceros resulta ser muy importante... de hecho, cualquier término en el que no lo haga se desvanecerá a medida que la suma crezca.
Lema: La suma $$n^{-k/2} \sum_{|\boldsymbol{\alpha}| = k}\binom{k}{\alpha_1, \dotsc, \alpha_n}\prod_{i=1}^n \mathbb{E}(X_i^{\alpha_i})$$ se rompe como $$n^{-k/2} \left( \underbrace{\left( \text{terms where some } \alpha_i = 1 \right)}_{\text{These are zero because $ \mathbb{E}X_i = 0 $}} + \underbrace{\left( \text{terms where }\alpha_i\text{'s are twos and zeros}\right)}_{\text{This part is } O(n^{k/2}) \text{ if $ k $ is even, otherwise no such terms}} + \underbrace{\left( \text{rest of terms}\right)}_{o(n^{k/2})} \right)$$
En otras palabras, en el límite, todos los términos se vuelven irrelevantes excepto
$$ n^{-k/2}\sum\limits_{\binom{n}{k/2}} \underbrace{\binom{k}{2,\dotsc, 2}}_{k/2 \text{ twos}} \prod\limits_{j=1}^{k/2}\mathbb{E}(X_{i_j}^2) \tag{1}$$
Prueba: Los puntos principales son dividir la suma por la que Composición (fuerte) de $k$ está representado por el multinomio $\boldsymbol{\alpha}$ . Sólo hay $2^{k-1}$ posibilidades de composiciones fuertes de $k$ para que el número de estos no pueda explotar como $n \to \infty$ . Luego está la elección de cuál de los $X_1, \dotsc, X_n$ recibirá los exponentes positivos, y el número de tales opciones es $\binom{n}{\text{# positive terms in }\boldsymbol{\alpha}} = O(n^{\text{# positive terms in }\boldsymbol{\alpha}})$ . (Recuerde el número de términos positivos en $\boldsymbol{\alpha}$ no puede ser mayor que $k/2$ sin matar el término). Eso es básicamente todo. Puede encontrar una descripción más completa aquí en mi sitio web, o en la sección 2.2.3 de la Temas de la teoría de las matrices aleatorias donde leí por primera vez este argumento.
Y así concluye toda la prueba. Hemos demostrado que todos los momentos de $\frac{X_1 + … + X_n}{\sqrt{n}}$ olvidar todo menos $\mathbb{E}X_i$ y $\mathbb{E}(X_i^2)$ como $n \to \infty$ . Y por lo tanto, el intercambio de la $X_i$ con cualquier variable con el mismo primer y segundo momento no habría hecho ninguna diferencia en el límite. Así que también podríamos haberlas tomado como $\sim \mathcal{N}(\mu, \sigma^2)$ para empezar; no habría hecho ninguna diferencia.
**(Si se quiere profundizar en la cuestión de por qué $n^{1/2}$ es el número mágico aquí para los vectores y para las funciones, y por qué la varianza (cuadrado $L^2$ norma) es la estadística importante, se podría leer por qué $L^2$ es el único $L^p$ espacio que puede ser un espacio de producto interno. Porque $2$ es el único número que es su propio conjugado de Holder).
Otra opinión válida es que $n^{1/2}$ es no el único denominador puede aparecer. Existen diferentes "cuencas de atracción" para las variables aleatorias, por lo que hay infinitos teoremas centrales del límite. Hay variables aleatorias para las que $\frac{X_1 + \dotsb + X_n}{n} \Rightarrow X$ y para el que $\frac{X_1 + \dotsb + X_n}{1} \Rightarrow X$ ¡! Pero estas variables aleatorias tienen necesariamente una varianza infinita. Se llaman "leyes estables".
También es esclarecedor observar la distribución normal desde el punto de vista del cálculo de variaciones: la distribución normal $\mathcal{N}(\mu, \sigma^2)$ maximiza la entropía de Shannon entre distribuciones con una media y una varianza dadas, y que son absolutamente continuas con respecto a la medida de Lebesgue sobre $\mathbb{R}$ (o $\mathbb{R}^d$ para el caso multivariante). Esto se demuestra aquí por ejemplo.
1 votos
¿Ya has visto esto?
0 votos
@J. M., gracias por el enlace. Aunque, no encontré una explicación rápida que entendiera, lamentablemente. Específicamente, me interesa por qué muestrear cualquier distribución (incluso una no simétrica) conducirá a una distribución normal, simétrica, para muestras lo suficientemente grandes.
2 votos
es.wikipedia.org/wiki/Ilustración_del_teorema_del_límite_central podría ayudar a proporcionar un poco de intuición. ¡Gran pregunta, por cierto!
2 votos
No para confundirte, pero el CLT solo se aplica en el caso de segundo momento finito (varianza finita). Las distribuciones Levy-Stable también son una distribución convergente de sumas de variables aleatorias.