8 votos

Muestreo 100000 veces de una distribución normal en R : distribución extraña de la desviación estándar de las muestras

He generado, en R, cien mil muestras aleatorias de diez valores de la distribución normal con media cero y desviación estándar unitaria, y he registrado cada media y desviación estándar, con la esperanza de entender mejor su distribución.

moy <- c()
std <- c()
N <- 100000
for(i in 1:N){
    print((i/N))
    sam <- rnorm(10)
    moy <- c(moy,mean(sam))
    std <- c(std,sd(moy))
}
hist(std, n=10000, xlim=c(0.312,0.319))

Lo que no esperaba se muestra aquí en el histograma de la desviación estándar de las muestras, que muestra una clara agrupación de las estimaciones de la SD de las muestras en/alrededor de algunos valores más de lo esperado :

histogram of sample's SD

Mi pregunta es, entonces, ¿hay alguna causa lógica para esta extraña distribución de la SD de las muestras?

En realidad, esperaba algún tipo de distribución normal (o muy cercana a la normal). No veo ninguna razón para esta extraña distribución, aparte de que, tal vez, el generador de números aleatorios de R no genere números bastante aleatorios. ¿Pero quizás hay alguna causa matemática para lo que se observa aquí?

Gracias de antemano.

3 votos

Lo que has encontrado es de hecho el error estándar de la media de la muestra, por eso ves grupos alrededor de $1/\sqrt{10}\approx0.316$ .

0 votos

Está relacionada esta respuesta que describe la distribución muestral de la varianza de la muestra: ¿Por qué la distribución muestral de la varianza es una distribución chi-cuadrado?

8voto

Raptrex Puntos 115

Tienes un bicho; estás tomando sd de moy en lugar de sam . Apuesto a que tu código también es bastante lento; un método más parecido a R sería el siguiente.

N <- 100000
n <- 10
d <- matrix(rnorm(N*n), nrow=10)
m <- colMeans(d)
s <- apply(d, 2, sd)

hist(s, 10000)

0 votos

¡Santo cielo! ¡Así que eso fue todo! Muchas gracias por señalar ese error tan rápido. Y sí, me di cuenta de que se ralentizó a medida que el tiempo avanzaba durante la carrera. No sabía por qué... Eso me recuerda que no hay que intentar las cosas demasiado tarde en la noche. Y gracias por el código.

0 votos

Tal vez esta extraña distribución refleje el rebote de la desviación estándar de la media a medida que aumenta el número de muestras...

0 votos

¿Para qué se ha calculado la variable "m"? No hay más uso de 'm'. Querías la diferencia d y m.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X