7 votos

¿Qué utilidad tiene el CLT en las aplicaciones?

Mi profesor acaba de tratar el teorema del límite central de Lindeberg-Lévy y la versión multivariante, el CLT de Lindeberg-Feller. He entendido el concepto básico y puedo derivarlo, etc. Pero ayudaría mucho a mi comprensión si alguien pudiera explicar cómo se utiliza todo esto en aplicaciones de la vida real de econometría ¿Análisis?

He leído algunas afirmaciones de que el CLT es bonito sólo en un papel.

Se agradecerían algunas aplicaciones o referencias de la industria realmente interesantes.

8voto

AdamSane Puntos 1825

Sin duda, el CLT es una herramienta que se utiliza constantemente en las aplicaciones, ya que se trata de distribuciones de promedios o sumas con mucha frecuencia (incluso en casos que no siempre son obvios, por ejemplo, $s_n^2$ - la varianza de la muestra con denominador $n$ - es una media, por lo que la varianza ordinaria de la muestra es sólo una media ligeramente reescalada).

El CLT puede indicar que se espera una aproximación a la normalidad con el aumento del tamaño de la muestra para una estadística concreta, pero no cuando exactamente, puedes tratarlo como algo normal.

Así que, aunque sepas que la normalidad debería aparecer en algún momento, para saber si te acercas lo suficiente a un tamaño de muestra concreto, tendrás que comprobarlo (digamos que algebraicamente, o más a menudo mediante simulación).

A veces te encuentras con "reglas empíricas" que dicen "oh, n=30 es suficiente para que se aplique el teorema del límite central". Tales normas no tienen sentido sin especificar las circunstancias exactas (cuál es la distribución con la que estamos tratando, y qué propiedades nos importan, y "cuán cerca es lo suficientemente cerca").

Si tiene un $X$ con una distribución como esta:

Gamma(0.02) pdf

Entonces, los medios de la muestra, $\bar X$ para $n=1000$ tienen una forma como esta:

Gamma(20) pdf

... que para algunos propósitos podría estar bien tratar como normal (proporción dentro de 2 d.s. de la media, digamos); para otros propósitos (probabilidad de estar más de 3 d.s. por encima de la media, digamos), quizás no.

A veces n=2 es suficiente, a veces n=1000 no es suficiente.


Otro ejemplo: los momentos tercero y cuarto de la muestra son promedios, por lo que debería aplicarse el CLT. El test de Jarque-Bera se basa en eso (más Slutsky, supongo, para el denominador, junto con la independencia asintótica), para obtener una distribución chi-cuadrado para la suma de cuadrados de los valores estandarizados. Pero como Bowman y Shenton habían señalado (¡5 años antes!), no debería esperarse que esto funcionara bien hasta tamaños de muestra grandes. De hecho, mis propias simulaciones sugieren que, para los datos normales, la normalidad bivariada de la asimetría y la curtosis no funciona bien hasta que los tamaños de las muestras son sorprendentemente grandes (con tamaños de muestra pequeños y medianos, los contornos de la distribución conjunta se parecen más a un plátano que a una sandía)

plots of skewness vs kurtosis for normal samples

Sin embargo, cada vez es más frecuente que el tamaño de las muestras sea enorme. He colaborado en varios problemas con datos reales en los que el tamaño de las muestras era muy grande (millones). En esas situaciones, las cosas que sugiere la CLT deberían acercarse a lo normal como $n$ se acerca al infinito suelen estar muy bien aproximadas por distribuciones normales.

Yo no diría que el CLT es inútil - te dice qué distribución buscar - pero no hace más que señalarlo como un resultado eventual; todavía tienes que comprobar si es una aproximación adecuada para tus propósitos en el tamaño de la muestra que tienes.

1 votos

Bien dicho. Como se ha visto en otros post sobre este tema el CLT puede ser bastante engañoso y de dudoso valor en la práctica, no sólo por las razones anteriores sino porque cuando hay que estimar la varianza de la población y la distribución está sesgada, la varianza ya no se aplica en cierto sentido, y pasan cosas malas a la distribución del $t$ -Estadística.

1 votos

@FrankHarrell Las cosas malas pasan, sí. Con la distribución sesgada que dibujé en la parte superior de mi respuesta anterior (Gamma con forma 0,02), la distribución del estadístico t de dos muestras en muestras de tamaño medio (digamos n=30) se parece al cable principal de un puente colgante: bimodal con dos picos agudos.

0 votos

@Glen_b sólo por curiosidad, ¿podrías decir con qué tipo de análisis, variables o estadísticas estabas trabajando? ¿la aproximación resultó razonable? sólo para tener una idea de qué campos podrían recoger tantos datos y utilizar CLT, ya que la asintótica siempre me pareció un poco académica.

7voto

Marc-Andre R. Puntos 789

A pesar de los problemas con el CLT descritos por Glen_b, si estamos hablando de econometría análisis, entonces prácticamente todo los resultados son asintóticos (excepto cuando se utiliza el análisis bayesiano). Por lo tanto, cualquier aplicación basada en la econometría se basa en la CLT. Por ejemplo, Lars Hansen recibió el año pasado el premio Nobel por su trabajo sobre el método generalizado de momentos, que se basa en CLT.

Podría parecer que esa confianza en la CLT no es algo bueno, pero por otro lado cualquier documento econométrico que se base en la asintótica suele tener un capítulo con simulaciones de Monte Carlo que explora la fiabilidad de los resultados asintóticos en muestras pequeñas, y la mayoría de las veces los resultados no son tan malos.

0 votos

Gracias por la respuesta, y gracias por notar que he puesto en negrita "Econometría" en mi pregunta. Efectivamente, es en un contexto de econometría donde estoy aprendiendo el CLT.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X