Histograma de una pequeña muestra.
Suponga que tiene una población de mujeres de secundaria, toma una muestra al azar de 100 mujeres de la población, mide sus alturas (al centímetro más cercano) y hace un histograma de estas 100 alturas.
Usando el software estadístico R, puedo emular este proceso para obtener datos ficticios para un ejemplo. El vector x
contiene las alturas en pulgadas de 100 mujeres.
set.seed(2021) # for reproducibility
x = round(rnorm(100, 64, 3.5)) # draw sample, round; see Note at end
Según el resumen siguiente, puedo ver que la mujer más alta tenía una estatura de 71" y la más baja tenía 56" de altura. Además, puedo ver que la altura promedio es $\bar X = 63.36"$
summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
56.00 61.00 63.50 63.36 66.00 71.00
El histograma a continuación tiene etiquetas en la parte superior de sus barras, indicando cuántas mujeres están representadas en cada barra. Entonces, puedo decir que $8+10+1 = 19$ de las $100$ mujeres son más altas que 66". [En este estilo de histograma, los intervalos contienen el límite superior, pero no el límite inferior.] A partir de esto, podría suponer que aproximadamente $0.19 = 19\%$ de las mujeres en la *población* son más altas que 66". Pero esta es solo una estimación aproximada basada en una muestra de 100. Quizás sea más apropiado dar un intervalo de confianza del 95% para la probabilidad como $(0.113, 0.267)$ o $0.19 \pm 0.077.$
hist(x, col="skyblue2", label=T)
p.est = 0.19
CI = p.est + qnorm(c(.025,.975))*sqrt(p.est*(1-p.est)/100)
CI
[1] 0.1131104 0.2668896
sum(x > 66)
[1] 19
Distribución exacta de la población.
Por el contrario, si me dicen que la distribución de la población de alturas de estas estudiantes mujeres es $\mathsf{Norm}(\mu = 64, \sigma=3.5).$ entonces tengo más conocimiento sobre la población de lo que puedo deducir a partir de una muestra de $100$ mujeres.
Entonces puedo encontrar un puntaje z y usar tablas impresas de CDF normales para encontrar la proporción exacta de estudiantes de secundaria en la población que pesan más de 66". Para obtener el mejor resultado, debo usar $66.5$ porque las mujeres más altas que eso se redondearán a 67" o más. (Este ajuste se llama 'corrección de continuidad'.)
Luego $Z = \frac{66.5 - 64}{3.5} = 0.714.$ Y de la tabla impresa obtienes aproximadamente la proporción $0.238.$ [Por lo general, usar tablas impresas implica algún redondeo, con una pequeña pérdida de precisión.] Puedes usar la función CDF normal pnorm
en R, para obtener el valor ligeramente más preciso $0.2376.$
z = (66.5-64)/3.5; z
[1] 0.7142857
1 - pnorm(0.714)
[1] 0.2376136
1 - pnorm(66.5, 64, 3.5)
[1] 0.2375253
Por supuesto, la respuesta $0.238$ de la distribución exacta de la población es mucho mejor que la respuesta aproximada $0.19\pm 0.077$ estimada a partir de una muestra de solo 100 mujeres. Pero intentas hacer lo mejor que puedes con la información que tienes.
La probabilidad $0.238$ es el área bajo la curva de densidad a la derecha de la línea vertical.
hdr = "Densidad de NORM(64, 3.5)"
curve(dnorm(x, 64, 3.5), 50, 75, lwd=2, ylab="Densidad", main=hdr)
abline(h = 0, col="green2"); abline(v = 66.5, lwd=2)
Nota: La información en la línea de código de R
x = round(rnorm(100, 64, 3.5))
¡nunca se conocería en una situación práctica! Esto se utilizó solo para crear una muestra ficticia de 100. [No tengo una enorme población de mujeres de secundaria en mi oficina para usar en la toma de la muestra.]