He generado, en R, cien mil muestras aleatorias de diez valores de la distribución normal con media cero y desviación estándar unitaria, y he registrado cada media y desviación estándar, con la esperanza de entender mejor su distribución.
moy <- c()
std <- c()
N <- 100000
for(i in 1:N){
print((i/N))
sam <- rnorm(10)
moy <- c(moy,mean(sam))
std <- c(std,sd(moy))
}
hist(std, n=10000, xlim=c(0.312,0.319))
Lo que no esperaba se muestra aquí en el histograma de la desviación estándar de las muestras, que muestra una clara agrupación de las estimaciones de la SD de las muestras en/alrededor de algunos valores más de lo esperado :
Mi pregunta es, entonces, ¿hay alguna causa lógica para esta extraña distribución de la SD de las muestras?
En realidad, esperaba algún tipo de distribución normal (o muy cercana a la normal). No veo ninguna razón para esta extraña distribución, aparte de que, tal vez, el generador de números aleatorios de R no genere números bastante aleatorios. ¿Pero quizás hay alguna causa matemática para lo que se observa aquí?
Gracias de antemano.
3 votos
Lo que has encontrado es de hecho el error estándar de la media de la muestra, por eso ves grupos alrededor de $1/\sqrt{10}\approx0.316$ .
0 votos
Está relacionada esta respuesta que describe la distribución muestral de la varianza de la muestra: ¿Por qué la distribución muestral de la varianza es una distribución chi-cuadrado?