19 votos

Intuición sobre el Teorema del Límite Central

Estoy estudiando estadística y me gustaría entender mejor el Teorema del Límite Central. La demostración que encontré en Wikipedia requiere ciertos conocimientos previos que actualmente no poseo.

¿Hay una explicación intuitiva rápida que puedas dar sobre por qué este teorema es correcto?

1 votos

¿Ya has visto esto?

0 votos

@J. M., gracias por el enlace. Aunque, no encontré una explicación rápida que entendiera, lamentablemente. Específicamente, me interesa por qué muestrear cualquier distribución (incluso una no simétrica) conducirá a una distribución normal, simétrica, para muestras lo suficientemente grandes.

2 votos

es.wikipedia.org/wiki/Ilustración_del_teorema_del_límite_central podría ayudar a proporcionar un poco de intuición. ¡Gran pregunta, por cierto!

21voto

Matt Dawdy Puntos 5479

No creo que debas esperar respuestas cortas y concisas porque pienso que esta es una pregunta muy profunda. Aquí tienes una suposición de una explicación conceptual, que no puedo ampliar completamente.

Nuestro punto de partida es algo llamado el principio de máxima entropía, que dice que en cualquier situación en la que estés tratando de asignar una distribución de probabilidad a ciertos eventos, debes elegir la distribución con máxima entropía que sea consistente con tu conocimiento. Por ejemplo, si no sabes nada y hay $n$ eventos, entonces la distribución de máxima entropía es la uniforme donde cada evento ocurre con una probabilidad de $\frac{1}{n}$. Hay muchos más ejemplos en este documento expositivo de Keith Conrad.

Ahora toma una serie de variables aleatorias independientes e idénticamente distribuidas $X_i$ con media $\mu$ y varianza $\sigma^2$. Sabes exactamente cuál es la media de $\frac{X_1 + ... + X_n}{n}$; es $\mu$ por linealidad de la expectativa. La varianza también es lineal, al menos en variables independientes (esto es una forma probabilística del teorema de Pitágoras), por lo tanto

$$\text{Var}(X_1 + ... + X_n) = \text{Var}(X_1) + ... + \text{Var}(X_n) = n \sigma^2$$

pero dado que la varianza escala cuadráticamente, la varianza de $\frac{X_1 + ... + X_n}{n}$ es en realidad $\frac{\sigma^2}{n}$; ¡en otras palabras, tiende a cero! Esta es una forma simple de convencerte de la (débil) ley de los grandes números.

Así que podemos convencernos de que (bajo las suposiciones de media y varianza finitas) el promedio de un grupo de variables aleatorias iid tiende a su media. Si queremos estudiar cómo tiende a su media, necesitamos considerar en su lugar $\frac{(X_1 - \mu) + ... + (X_n - \mu)}{\sqrt{n}}$, que tiene media $0$ y varianza $\sigma^2.

Supongamos que sospechamos, por alguna razón, que esto tiende a alguna distribución límite fija en términos de $\sigma^2$ solamente. Podríamos llegar a esta conclusión al ver este comportamiento para varias distribuciones particulares, por ejemplo. Dado esto, se sigue que no sabemos nada sobre esta distribución límite excepto su media y varianza. Entonces deberíamos elegir la distribución de máxima entropía con media y varianza fijas. ¡Y esta es exactamente la correspondiente distribución normal! Intuitivamente, cada variable aleatoria iid es como una partícula que se mueve al azar, y sumar las contribuciones de todas las partículas aleatorias agrega "calor" o "entropía" a tu sistema. (Creo que es por esto que la distribución normal aparece en la descripción del núcleo de calor, pero no me cites en esto). En términos de teoría de la información, cuantas más variables aleatorias iid sumes, menos información tienes sobre el resultado.

0 votos

(+1) Dado que queremos una media y varianza específicas, la máxima entropía y el cálculo de variaciones conducen directamente a la distribución normal. Utilizando la maquinaria de las Transformadas de Fourier (ver esta respuesta para empezar), podemos derivar la distribución gaussiana como límite débil de una contracción de convoluciones de cualquier distribución con media $0$ y varianza $1.

8voto

John Fouhy Puntos 759

Hay un argumento casi formal usando cumulantes. Dada una variable aleatoria $X$, define su función generadora de momentos $$M(X) = E[e^{tX}].$$ Se llama función generadora de momentos porque al abrir la serie de Taylor del exponencial, obtenemos $$M(X) = 1 + E[X]t + \frac{1}{2}E[X]^2t^2 + \cdots.$$ La función generadora de momentos es útil debido a su relación con la convolución de dos variables aleatorias independientes: $$M(X+Y) = E[e^{t(X+Y)}] = E[e^{tX}e^{tY}] = E[e^{tX}]E[e^{tY}] = M(X)M(Y).$$ Una prueba del TCL toma el camino de la función generadora de momentos, pero nos gustaría reemplazar la multiplicación por una adición ya que realmente solo sabemos cómo manejar sumas. Así que definimos la función generadora de cumulantes $$K(X) = \log M(X).$$ Podemos calcular los primeros coeficientes (llamados cumulantes) sustituyendo en la serie de potencias (formal) de $\log(1+x) = x - x^2/2 + \cdots$: $$K(X) = \log (1+E[X]t+E[X^2]t^2/2 + \cdots) = E[X]t + E[X^2]t^2/2 - (E[X]^2t^2 + E[X]E[X^2]t^3 + E[X^2]t^4/4)/2 + \cdots = E[X]t + V[X]t^2/2 + \cdots.$$ Además, si $X$ e $Y$ son independientes entonces $$K[X+Y] = K[X]+K[Y].$$ Ahora supongamos que $X_1,\ldots,X_n$ son variables iid distribuidas como $X$ con esperanza cero. Entonces $$K[X_1+\cdots+X_n] = nK[X] = \frac{1}{2}nV[X]t^2 + \frac{1}{6}nK_3(X)t^3 + \cdots,$$ donde $K_m(X)$ son simplemente los coeficientes (normalizados) de la función generadora de cumulantes, es decir, los cumulantes (están normalizados por $1/m!$). Si escalamos esta suma por $\sqrt{n}$, entonces el segundo cumulante se convierte en $V[X]$ (es decir, la varianza es la misma), pero el resto de los cumulantes $K_m$ para $m \geq 3$ se multiplican por $n^{1-m/2} \rightarrow 0$, por lo que en el límite desaparecen, y el cumulante del límite es simplemente $$K\left[\frac{X_1+\cdots+X_n}{\sqrt{n}}\right] = \frac{1}{2}V[X]t^2.$$ Por lo tanto, hay un 'dominio de atracción' para las distribuciones, que debe ser la distribución normal con media cero y varianza $V[X]$; se puede calcular directamente a partir de esta representación. La misma idea se puede usar para analizar el caso en el que las variables son independientes pero no distribuidas de manera idéntica. El paso principal que falta para que esta prueba sea formal es razonar sobre la distribución límite a partir de la función generadora de cumulantes límite; este es el lema de continuidad de Levy, que muestra que la 'transformada de Fourier inversa' es continua.

Si hubiéramos tomado el camino de las funciones generadoras de momentos, habríamos tenido que usar la identidad $(1+1/n)^n \rightarrow e^n$ en algún lugar, pero por lo demás, el argumento habría sido más o menos el mismo.

5voto

Eric Auld Puntos 9640

(Mensaje cruzado desde Stats Stack, donde se hizo una pregunta similar).

¿Por qué el $\sqrt{n}$ en lugar de $n$ ? ¿Qué es esta extraña versión de una media?

Si tienes un montón de vectores perpendiculares $x_1, \dotsc, x_n$ de longitud $\ell$ entonces $ \frac{x_1 + \dotsb + x_n}{\sqrt{n}}$ es de nuevo de longitud $\ell.$ Hay que normalizar por $\sqrt{n}$ para mantener la suma en la misma escala.

Existe una profunda conexión entre las variables aleatorias independientes y los vectores ortogonales. Cuando las variables aleatorias son independientes, eso significa básicamente que son vectores ortogonales en un espacio vectorial de funciones.

(El espacio funcional al que me refiero es $L^2$ y la varianza de una variable aleatoria $X$ es sólo $\|X - \mu\|_{L^2}^2$ . Así que no es de extrañar que la varianza sea aditiva sobre variables aleatorias independientes. Al igual que $\|x + y\|^2 = \|x\|^2 + \|y\|^2$ cuando $x \perp y$ .)**

¿Por qué la distribución normal?

Una cosa que realmente me confundió durante un tiempo, y que creo que está en el centro de la cuestión, es la siguiente pregunta:

¿Por qué la suma $\frac{X_1 + \dotsb + X_n} {\sqrt{n}}$ ( $n$ grande) no le importa nada sobre el $X_i$ excepto su media y su varianza? (Momentos 1 y 2.)

Esto es similar al fenómeno de la ley de los grandes números:

$\frac{X_1 + \dotsb + X_n} {n}$ ( $n$ grande) sólo se preocupa del momento 1 (la media).

(Ambos tienen sus hipótesis que estoy suprimiendo (ver la nota al pie), pero lo más importante, por supuesto, es que el $X_i$ sea independiente .)

Una forma más elocuente de expresar este fenómeno es: en la suma $\frac{X_1 + \dotsb + X_n}{\sqrt{n}}$ Puedo reemplazar cualquiera o todos los $X_i$ con algunas otras VR, mezclando y combinando entre todo tipo de distribuciones diversas, siempre que tengan el mismo primer y segundo momento. Y no importará mientras $n$ es grande, en relación con los momentos.

Si entendemos por qué eso es cierto, entonces entendemos el teorema del límite central . Porque entonces también podemos tomar $X_i$ para ser normal con el mismo primer y segundo momento, y en ese caso sabemos $\frac{X_1 + \dotsb + X_n}{\sqrt{n}}$ es normal de nuevo para cualquier $n$ incluyendo los supergrandes $n$ . Porque la distribución normal tiene la propiedad especial ("estabilidad") de que puedes sumar dos normales independientes y obtener otra normal. Y ya está.

La explicación del fenómeno del primer y segundo momento es, en última instancia, algo de aritmética. Hay varias lentes a través de las cuales se puede elegir ver esta aritmética. La más común que la gente utiliza es la transformada de Fourier (también conocida como función característica), que tiene la sensación de "sigo los pasos, pero ¿cómo y por qué se le ocurriría a alguien?". Otro enfoque es mirar la cumulantes de $X_i$ . Allí encontramos que la distribución normal es la única distribución cuyos cumulantes superiores desaparecen, y dividiendo por $\sqrt{n}$ tiende a matar a todos los cumulantes menos a los dos primeros como $n$ se hace grande.

Aquí mostraré un enfoque más elemental. Como la suma $Z_n \overset{\text{(def)}}{=} \frac{X_1 + \dotsb + X_n}{\sqrt{n}}$ se alarga cada vez más, mostraré que todos los momentos de $Z_n$ son funciones sólo de las varianzas $\operatorname{Var}(X_i)$ y los medios $\mathbb{E}X_i$ y nada más. Ahora los momentos de $Z_n$ determinar la distribución de $Z_n$ (esto es cierto no sólo para las sumas largas independientes, sino para cualquier distribución agradable, por el Teorema de continuidad de Carleman ). Para decirlo de nuevo, estamos afirmando que como $n$ se hace grande, $Z_n$ depende únicamente del $\mathbb{E}X_i$ y el $\operatorname{Var}X_i$ . Y para demostrarlo, vamos a mostrar que $\mathbb{E}((Z_n - \mathbb{E}Z_n)^k)$ depende únicamente del $\mathbb{E}X_i$ y el $\operatorname{Var}X_i$ . Eso es suficiente, por el teorema de continuidad de Carleman.

Por comodidad, vamos a exigir que el $X_i$ tienen media cero y varianza $\sigma^2$ . Supongamos que todos sus momentos existen y están uniformemente acotados. (Sin embargo, el $X_i$ pueden ser todas distribuciones independientes diferentes).

Reclamación: Según los supuestos indicados, el $k$ momento $$\mathbb{E} \left[ \left(\frac{X_1 + \dotsb + X_n}{\sqrt{n}}\right)^k \right]$$ tiene un límite como $n \to \infty$ y ese límite es una función sólo de $\sigma^2$ . (Se no tiene en cuenta el resto de la información).

(En concreto, los valores de esos límites de momentos son simplemente los momentos de la distribución normal $\mathcal{N}(0, \sigma^2)$ : cero para $k$ impar, y $|\sigma|^k \frac{k!}{(k/2)!2^{k/2}}$ cuando $k$ está en paz. Se trata de la ecuación (1) siguiente).

Prueba: Considere $\mathbb{E} \left[ \left(\frac{X_1 + \dotsb + X_n}{\sqrt{n}}\right)^k \right]$ . Cuando se expande, se obtiene un factor de $n^{-k/2}$ por una gran suma multinomial.

$$n^{-k/2} \sum_{|\boldsymbol{\alpha}| = k} \binom{k}{\alpha_1, \dotsc, \alpha_n}\prod_{i=1}^n \mathbb{E}(X_i^{\alpha_i})$$ $$\alpha_1 + \dotsb + \alpha_n = k$$ $$(\alpha_i \geq 0)$$

(Recuerda que puedes distribuir la expectativa sobre variables aleatorias independientes. $\mathbb{E}(X^a Y^b) = \mathbb{E}(X^a)\mathbb{E}(Y^b)$ .)

Ahora bien, si alguna vez tengo como uno de mis factores un simple $\mathbb{E}(X_i)$ con el exponente $\alpha_i =1$ entonces todo ese término es cero, porque $\mathbb{E}(X_i) = 0$ por suposición. Así que necesito todos los exponentes $\alpha_i \neq 1$ para que ese término sobreviva. Eso me empuja a utilizar menos $X_i$ en cada término, porque cada término tiene $\sum \alpha_i = k$ y tengo que tener cada $\alpha_i >1$ si es $>0$ . De hecho, un poco de aritmética simple muestra que a lo sumo $k/2$ de la $\alpha_i$ puede ser distinto de cero, y eso sólo cuando $k$ es par, y cuando uso sólo dos y ceros como mi $\alpha_i$ .

Este patrón en el que sólo utilizo dos y ceros resulta ser muy importante... de hecho, cualquier término en el que no lo haga se desvanecerá a medida que la suma crezca.

Lema: La suma $$n^{-k/2} \sum_{|\boldsymbol{\alpha}| = k}\binom{k}{\alpha_1, \dotsc, \alpha_n}\prod_{i=1}^n \mathbb{E}(X_i^{\alpha_i})$$ se rompe como $$n^{-k/2} \left( \underbrace{\left( \text{terms where some } \alpha_i = 1 \right)}_{\text{These are zero because $ \mathbb{E}X_i = 0 $}} + \underbrace{\left( \text{terms where }\alpha_i\text{'s are twos and zeros}\right)}_{\text{This part is } O(n^{k/2}) \text{ if $ k $ is even, otherwise no such terms}} + \underbrace{\left( \text{rest of terms}\right)}_{o(n^{k/2})} \right)$$

En otras palabras, en el límite, todos los términos se vuelven irrelevantes excepto

$$ n^{-k/2}\sum\limits_{\binom{n}{k/2}} \underbrace{\binom{k}{2,\dotsc, 2}}_{k/2 \text{ twos}} \prod\limits_{j=1}^{k/2}\mathbb{E}(X_{i_j}^2) \tag{1}$$

Prueba: Los puntos principales son dividir la suma por la que Composición (fuerte) de $k$ está representado por el multinomio $\boldsymbol{\alpha}$ . Sólo hay $2^{k-1}$ posibilidades de composiciones fuertes de $k$ para que el número de estos no pueda explotar como $n \to \infty$ . Luego está la elección de cuál de los $X_1, \dotsc, X_n$ recibirá los exponentes positivos, y el número de tales opciones es $\binom{n}{\text{# positive terms in }\boldsymbol{\alpha}} = O(n^{\text{# positive terms in }\boldsymbol{\alpha}})$ . (Recuerde el número de términos positivos en $\boldsymbol{\alpha}$ no puede ser mayor que $k/2$ sin matar el término). Eso es básicamente todo. Puede encontrar una descripción más completa aquí en mi sitio web, o en la sección 2.2.3 de la Temas de la teoría de las matrices aleatorias donde leí por primera vez este argumento.

Y así concluye toda la prueba. Hemos demostrado que todos los momentos de $\frac{X_1 + … + X_n}{\sqrt{n}}$ olvidar todo menos $\mathbb{E}X_i$ y $\mathbb{E}(X_i^2)$ como $n \to \infty$ . Y por lo tanto, el intercambio de la $X_i$ con cualquier variable con el mismo primer y segundo momento no habría hecho ninguna diferencia en el límite. Así que también podríamos haberlas tomado como $\sim \mathcal{N}(\mu, \sigma^2)$ para empezar; no habría hecho ninguna diferencia.


**(Si se quiere profundizar en la cuestión de por qué $n^{1/2}$ es el número mágico aquí para los vectores y para las funciones, y por qué la varianza (cuadrado $L^2$ norma) es la estadística importante, se podría leer por qué $L^2$ es el único $L^p$ espacio que puede ser un espacio de producto interno. Porque $2$ es el único número que es su propio conjugado de Holder).

Otra opinión válida es que $n^{1/2}$ es no el único denominador puede aparecer. Existen diferentes "cuencas de atracción" para las variables aleatorias, por lo que hay infinitos teoremas centrales del límite. Hay variables aleatorias para las que $\frac{X_1 + \dotsb + X_n}{n} \Rightarrow X$ y para el que $\frac{X_1 + \dotsb + X_n}{1} \Rightarrow X$ ¡! Pero estas variables aleatorias tienen necesariamente una varianza infinita. Se llaman "leyes estables".

También es esclarecedor observar la distribución normal desde el punto de vista del cálculo de variaciones: la distribución normal $\mathcal{N}(\mu, \sigma^2)$ maximiza la entropía de Shannon entre distribuciones con una media y una varianza dadas, y que son absolutamente continuas con respecto a la medida de Lebesgue sobre $\mathbb{R}$ (o $\mathbb{R}^d$ para el caso multivariante). Esto se demuestra aquí por ejemplo.

1 votos

Por favor, realiza ediciones sustanciales. Ha habido muchas ediciones pequeñas en esta respuesta. Esto coloca esta pregunta en la página principal innecesariamente con frecuencia.

3voto

Trabajar algunos ejemplos simples podría ayudar. Esto realmente te mostraría que el teorema funciona en casos especiales. Por lo tanto, sería un gran avance para convencerse de la validez del teorema del límite central. El teorema del límite central apareció por primera vez en el trabajo de Abraham de Moivre, en el cual demostró que la distribución normal se aproxima a la distribución del número de caras resultantes de muchos lanzamientos de una moneda justa. Más tarde Laplace mostró lo mismo para la distribución binomial, aproximándola con la distribución normal. Sugiero que trabajes en estos dos casos más simples para tener una idea de cómo sucede la aproximación. Todo el fondo necesario para hacer esto por ti mismo está disponible en el libro de Hoel, Port y Stone.

Si encuentras que el teorema es difícil de entender, podría reconfortarte saber que a los probabilistas les llevó mucho tiempo formular y entender adecuadamente el teorema. Solo se logró en el siglo XX por Lyapunov.

Si estás orientado hacia aplicaciones prácticas, entonces acostumbrarte a algunos temas de tu elección, por ejemplo, el análisis de ruido en teoría de la comunicación, podría ayudarte a convencerte de la verdad del teorema del límite central.

La mejor manera de entender el teorema del límite central sería, por supuesto, tomar un curso de teoría de la probabilidad. Un curso introductorio generalmente termina con una prueba de este teorema. Y si tomas un curso, verías otros teoremas interesantes como las leyes débiles y fuertes de los números grandes, y esto pondría al teorema del límite central en una mejor perspectiva. Incluso después de todo esto, es posible que aún necesites contemplar un poco para realmente absorber el teorema. La prueba que he visto utiliza algunas "funciones características" y una especie de "transformada de Fourier". Lamentablemente debo confesar que no lo entendí completamente cuando tomé el curso. Nunca tuve que estudiar teoría de la probabilidad más tarde; pero si surge la ocasión, tengo la intención de revisar completamente la prueba y comprender el mecanismo.

2voto

Anthony Shaw Puntos 858

Esta respuesta ofrece un resumen de cómo utilizar la Transformada de Fourier para demostrar que la convolución $n$-fold de cualquier distribución de probabilidad con una varianza finita, contraída por un factor de $\sqrt{n}$, converge débilmente a la distribución normal.

Sin embargo, en su respuesta, Qiaochu Yuan menciona que se puede utilizar el Principio de Máxima Entropía para obtener una distribución normal. A continuación, he intentado hacer eso mismo utilizando el Cálculo de Variaciones.


Aplicando el Principio de Máxima Entropía

Supongamos que queremos maximizar la entropía $$ -\int_{\mathbb{R}}\log(f(x))f(x)\,\mathrm{d}x\tag1 $$ sobre todos los $f$ cuya media es $0$ y varianza es $\sigma^2$, es decir $$ \int_{\mathbb{R}}\left(1,x,x^2\right)f(x)\,\mathrm{d}x=\left(1,0,\sigma^2\right)\tag2 $$ Es decir, queremos que la variación de $(1)$ se anule $$ \int_{\mathbb{R}}(1+\log(f(x)))\,\delta f(x)\,\mathrm{d}x=0\tag3 $$ para todas las variaciones de $f$, $\delta f(x)$, de modo que la variación de $(2)$ se anule $$ \int_{\mathbb{R}}\left(1,x,x^2\right)\delta f(x)\,\mathrm{d}x=(0,0,0)\tag4 $$ $(3)$, $(4)$, y la ortogonalidad requiere $$ \log(f(x))=c_0+c_1x+c_2x^2\tag5 $$ Para satisfacer $(2)$, necesitamos $c_0=-\frac12\log\left(2\pi\sigma^2\right)$, $c_1=0$, y $c_2=-\frac1{2\sigma^2}$. Es decir, $$ \bbox[5px,border:2px solid #C0A000]{f(x)=\frac1{\sigma\sqrt{2\pi}}\,e^{-\frac{x^2}{2\sigma^2}}}\tag6 $$

0 votos

Esto indica que la entropía máxima para una distribución de probabilidad en $\mathbb{R}$ con varianza $\sigma^2$ es $\frac12\log\left(2\pi e\sigma^2\right)$.

1 votos

@EricAuld: He agregado un poco más para ayudar a aclarar que estoy usando el Cálculo de Variaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X