En general, el tamaño de cada muestra debe ser superior a $5$ para que la aproximación del CLT sea buena. Una regla general es una muestra de tamaño $30$ o más. Pero, con la población de su primer ejemplo, $5$ está bien.
pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")
En tu segundo ejemplo, debido a la forma de la distribución de la población (por un lado, está demasiado sesgada; lee los comentarios de guy y Glen_b abajo), incluso las muestras de tamaño $30$ no le dará una buena aproximación a la distribución de la media muestral utilizando el CLT.
pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")
Pero, con esta segunda población, las muestras de, digamos, tamaño $100$ están bien.
pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")
1 votos
No lo hará si se incrementa hasta más allá de n = 30 o así ... sólo mi sospecha y una versión más sucinta / reafirmación de la respuesta aceptada a continuación.
0 votos
@JimSD el CLT es un asintótica resultado (es decir, sobre la distribución de las medias o sumas estandarizadas de la muestra en el límite a medida que el tamaño de la muestra llega al infinito). $n=5$ no es $n\to\infty$ . Lo que estás viendo (la aproximación a la normalidad en muestras finitas) no es estrictamente un resultado de la CLT, sino un resultado relacionado.
3 votos
@oemb1905 n=30 no es suficiente para el tipo de asimetría que sugiere OP. Dependiendo de lo rara que sea esa contaminación con un valor como $10^7$ es que puede hacer falta n=60 o n=100 o incluso más antes de que la normalidad parezca una aproximación razonable. Si la contaminación es de aproximadamente el 7% (como en la pregunta), n=120 sigue estando algo sesgado
2 votos
Posible duplicado de ¿Por qué el aumento del tamaño de la muestra de lanzamientos de monedas no mejora la aproximación de la curva normal?
0 votos
Piensa que nunca se alcanzarán valores en intervalos como (1.100.000 , 1.900.000). Pero si haces medio de una cantidad decente esas sumas, ¡funcionará!
0 votos
Gracias @Glen_b aprecio los comentarios