23 votos

¿Por qué se rompe el Teorema Central del Límite en mi simulación?

Digamos que tengo los siguientes números:

4,3,5,6,5,3,4,2,5,4,3,6,5

Tomo una muestra de algunas de ellas, digamos 5, y calculo la suma de 5 muestras. Luego repito eso una y otra vez para obtener muchas sumas, y trazo los valores de las sumas en un histograma, que será gaussiano debido al Teorema del Límite Central.

Pero cuando siguen los números, acabo de sustituir el 4 por algún número grande:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

El muestreo de sumas de 5 muestras de éstas nunca se convierte en gaussiano en el histograma, sino que más bien se divide y se convierte en dos gaussianos. ¿Por qué?

1 votos

No lo hará si se incrementa hasta más allá de n = 30 o así ... sólo mi sospecha y una versión más sucinta / reafirmación de la respuesta aceptada a continuación.

0 votos

@JimSD el CLT es un asintótica resultado (es decir, sobre la distribución de las medias o sumas estandarizadas de la muestra en el límite a medida que el tamaño de la muestra llega al infinito). $n=5$ no es $n\to\infty$ . Lo que estás viendo (la aproximación a la normalidad en muestras finitas) no es estrictamente un resultado de la CLT, sino un resultado relacionado.

3 votos

@oemb1905 n=30 no es suficiente para el tipo de asimetría que sugiere OP. Dependiendo de lo rara que sea esa contaminación con un valor como $10^7$ es que puede hacer falta n=60 o n=100 o incluso más antes de que la normalidad parezca una aproximación razonable. Si la contaminación es de aproximadamente el 7% (como en la pregunta), n=120 sigue estando algo sesgado

20voto

eldering Puntos 3814

Recordemos, precisamente, lo que dice el teorema del límite central.

Si $X_1, X_2, \cdots, X_k$ son variables aleatorias independientes e idénticamente distribuidas con media (compartida) $\mu$ y la desviación estándar $\sigma$ entonces $\frac{X_1 + X_2 + \cdots + X_k}{k\frac{\sigma}{\sqrt{k}}}$ converge en su distribución a una distribución normal estándar $N(0, 1)$ (*).

A menudo se utiliza en la forma "informal":

Si $X_1, X_2, \cdots, X_k$ son variables aleatorias independientes e idénticamente distribuidas con media (compartida) $\mu$ y la desviación estándar $\sigma$ entonces $X_1 + X_2 + \cdots + X_k$ converge "en distribución" a una distribución normal estándar $N(k \mu, \sqrt{k} \sigma)$ .

No hay una buena manera de hacer que esa forma de la CLT sea matemáticamente precisa, ya que la distribución "límite" cambia, pero es útil en la práctica.

Cuando tenemos una lista estática de números como

4,3,5,6,5,3,10000000,2,5,4,3,6,5

y estamos muestreando tomando un número al azar de esta lista, para aplicar el teorema del límite central necesitamos estar seguros de que nuestro esquema de muestreo satisface estas dos condiciones de independencia e idénticamente distribuido.

  • La distribución idéntica no es un problema: cada número de la lista tiene la misma probabilidad de ser elegido.
  • La independencia es más sutil y depende de nuestro esquema de muestreo. Si estamos muestreando sin sustitución entonces violamos la independencia. El teorema del límite central sólo es aplicable cuando se toman muestras con reemplazo.

Por lo tanto, si utilizamos con sustitución muestreo en su esquema, entonces deberíamos ser capaces de aplicar el teorema del límite central. Al mismo tiempo, tienes razón, si nuestra muestra es de tamaño 5, entonces vamos a ver un comportamiento muy diferente dependiendo de si el número muy grande es elegido, o no elegido en nuestra muestra.

¿Cuál es el problema? Bueno, el tasa de convergencia a una distribución normal depende mucho de la forma de la población de la que estamos muestreando, en particular, si nuestra población es muy asimétrica, esperamos que tarde mucho en converger a la normal. Este es el caso de nuestro ejemplo, por lo que no debemos esperar que una muestra de tamaño 5 sea suficiente para mostrar la estructura normal.

Three Normal Distributions

Arriba he repetido su experimento (con muestreo de sustitución) para muestras de tamaño 5, 100 y 1000. Puedes ver que la estructura normal es emergente para muestras muy grandes.

(*) Obsérvese que hay algunas condiciones técnicas necesarias aquí, como la media y la varianza finitas. Es fácil comprobar que se cumplen en nuestro ejemplo de muestreo a partir de una lista.

0 votos

Gracias por una respuesta tan rápida y perfecta. La idea del CLT, la sustitución, la necesidad de más muestras cuando la distribución de los datos es sesgada,... Ahora está muy claro. Mi intención original de la pregunta es, tal y como mencionas, el caso en el que se incluye un número grande sin reemplazo y el número de muestreo es fijo. El comportamiento es muy diferente y, por tanto, hay que considerar el CLT "condicional" para el caso en que se incluye un número grande en la muestra y el caso en que no se incluye en la muestra. Me pregunto si hay alguna investigación o trabajo previo para eso.. Pero gracias de todos modos.

0 votos

No sé si es aplicable aquí, pero el teorema de la convergencia de CLT regulado por la asimetría es.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem

0 votos

Estoy un poco confundido por la definición de @MatthewDrury del CLT. Creo que $\frac{\sum X_k}{k}$ converge a una constante por la LLN, no a una distribución normal.

13voto

farzad Puntos 4180

En general, el tamaño de cada muestra debe ser superior a $5$ para que la aproximación del CLT sea buena. Una regla general es una muestra de tamaño $30$ o más. Pero, con la población de su primer ejemplo, $5$ está bien.

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

enter image description here

En tu segundo ejemplo, debido a la forma de la distribución de la población (por un lado, está demasiado sesgada; lee los comentarios de guy y Glen_b abajo), incluso las muestras de tamaño $30$ no le dará una buena aproximación a la distribución de la media muestral utilizando el CLT.

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

enter image description here

Pero, con esta segunda población, las muestras de, digamos, tamaño $100$ están bien.

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

enter image description here

3 votos

El problema no es la varianza. Una forma de conseguir un control riguroso es utilizar la relación entre el tercer momento central y la desviación estándar al cubo, como en el teorema de Berry-Esseen.

0 votos

Perfecto. Añadido. Gracias.

1 votos

Gracias por una respuesta rápida, visual y perfecta con un código. ¡Me sorprendió mucho lo rápido que fue! No estaba al tanto del número apropiado de muestreo. Estaba pensando en el caso de que el número de muestreo sea fijo.

7voto

user93692 Puntos 128

Me gustaría explicar, utilizando complejos funciones generadoras de cúmulos por qué todo el mundo sigue culpando de esto a Skew.

Escribamos la variable aleatoria que está muestreando como $\mu+\sigma Z$ , donde $\mu$ es la media y $\sigma$ la desviación estándar por lo que $Z$ tiene media $0$ y la varianza $1$ . La función generadora de cúmulos de $Z$ es $-\frac{1}{2}t^2-\frac{i\gamma_1}{6}t^3+o(t^3)$ . Aquí $\gamma_1$ denota la inclinación de $Z$ podríamos escribirlo en términos de la inclinación $\kappa_3$ de la variable original $\mu+\sigma Z$ , a saber. $\gamma_1=\sigma^{-3}\kappa_3$ .

Si dividimos la suma de $n$ muestras de $Z$ La distribución de la empresa por $\sqrt{n}$ el resultado tiene cgf $$n\left(-\frac{1}{2}\left(\frac{t}{\sqrt{n}}\right)^2-\frac{i\gamma_1}{6}\left(\frac{t}{\sqrt{n}}\right)^3\right)+o(t^3)=-\frac{1}{2}t^2-\frac{i\gamma_1}{6\sqrt{n}}t^3+o(t^3).$$ Para que una aproximación Normal sea válida a un tamaño suficientemente grande $t$ para que el gráfico se vea bien, necesitamos un tamaño suficientemente grande $n$ . Este cálculo motiva $n\propto\gamma_1^2$ . Las dos muestras que ha considerado tienen valores muy diferentes de $\gamma_1$ .

-1voto

feynman Puntos 135

La respuesta corta es que no tienes una muestra lo suficientemente grande como para que se aplique el teorema del límite central.

1 votos

Que esto no puede ser una explicación válida es evidente por la observación de que el CLT da una buena aproximación para el primer conjunto de datos de la pregunta, que es igualmente pequeño.

0 votos

@whuber: Creo que estás diciendo que la distribución normal da una aproximación razonablemente buena para una muestra de cinco del primer conjunto. Dado que sólo hay un número finito de valores para las sumas (13 valores posibles sin reemplazo y 21 valores posibles con reemplazo), la aproximación no mejora mucho con un gran número de muestras de cinco, y la aproximación inicial se debe más al patrón inicial...

0 votos

@whuber Dado que la distribución del primer conjunto parece sesgada a la izquierda, yo esperaría que la suma de cinco también estuviera sesgada a la izquierda, de una forma menos extrema de lo que esperaría que la suma de cinco del segundo conjunto estuviera sesgada a la derecha. Para conseguir que la asimetría se reduzca aún más, habría pensado que se necesitaría un tamaño de muestra mayor

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X