69 votos

¿Por qué, en promedio, cada muestra de bootstrap contiene aproximadamente dos tercios de las observaciones?

Me he encontrado con la afirmación de que cada muestra de arranque (o árbol en bolsas) contendrá en promedio aproximadamente$2/3$ de las observaciones.

Entiendo que la probabilidad de no ser seleccionado en ninguna de las$n$ extracciones de$n$ muestras con reemplazo es$(1- 1/n)^n$, lo que equivale aproximadamente a$1/3$ de probabilidad de no ser seleccionado.

¿Cuál es una explicación matemática de por qué esta fórmula siempre da$\approx 1/3$?

5voto

Dan Puntos 12178

Simplemente agregando a la respuesta de @ retsreg, esto también se puede demostrar con bastante facilidad mediante simulación numérica en R:

 N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

1voto

DrNoone Puntos 751

Esto se puede ver fácilmente contando. ¿Cuántas muestras posibles en total? n ^ n. ¿Cuántos NO contienen un valor específico? (n-1) ^ n. Probabilidad de que una muestra no tenga un valor específico - (1-1 / n) ^ n, que es aproximadamente 1/3 en el límite.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X