1 votos

Histograma y Distribución Normal

Estaba estudiando histogramas y distribución normal. Hasta donde sé, son dos herramientas diferentes utilizadas para calcular probabilidad y estadísticas. Más específicamente, ayudan a visualizar y es una forma efectiva de resumir una gran cantidad de datos.

La principal diferencia está en su matemática y en la forma en que se visualizan. Para calcular la probabilidad de un evento a partir de un histograma, lo calculamos de manera aritmética normal. Pero, si queremos calcular la probabilidad a partir de la distribución normal, necesitamos cálculo y geometría. Estoy añadiendo capturas de pantalla para que todos puedan entender lo que quise decir arriba. Histograma Distribución normal

¿Podría alguien ayudarme a conocer sus casos de uso? ¿En qué casos sería mejor utilizar histogramas y distribución normal? ¿Hay alguna condición que debería verificar antes de decidir cuál debo usar, ya sea histograma o distribución normal?

1voto

BruceET Puntos 7117

Histograma de una pequeña muestra.

Suponga que tiene una población de mujeres de secundaria, toma una muestra al azar de 100 mujeres de la población, mide sus alturas (al centímetro más cercano) y hace un histograma de estas 100 alturas.

Usando el software estadístico R, puedo emular este proceso para obtener datos ficticios para un ejemplo. El vector x contiene las alturas en pulgadas de 100 mujeres.

 set.seed(2021)                  # for reproducibility
 x = round(rnorm(100, 64, 3.5))  # draw sample, round; see Note at end

Según el resumen siguiente, puedo ver que la mujer más alta tenía una estatura de 71" y la más baja tenía 56" de altura. Además, puedo ver que la altura promedio es $\bar X = 63.36"$

summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  56.00   61.00   63.50   63.36   66.00   71.00 

El histograma a continuación tiene etiquetas en la parte superior de sus barras, indicando cuántas mujeres están representadas en cada barra. Entonces, puedo decir que $8+10+1 = 19$ de las $100$ mujeres son más altas que 66". [En este estilo de histograma, los intervalos contienen el límite superior, pero no el límite inferior.] A partir de esto, podría suponer que aproximadamente $0.19 = 19\%$ de las mujeres en la *población* son más altas que 66". Pero esta es solo una estimación aproximada basada en una muestra de 100. Quizás sea más apropiado dar un intervalo de confianza del 95% para la probabilidad como $(0.113, 0.267)$ o $0.19 \pm 0.077.$

hist(x, col="skyblue2", label=T)

p.est = 0.19
CI = p.est + qnorm(c(.025,.975))*sqrt(p.est*(1-p.est)/100) 
CI
[1] 0.1131104 0.2668896

ingresa aquí una descripción de la imagen

sum(x > 66)
[1] 19

Distribución exacta de la población.

Por el contrario, si me dicen que la distribución de la población de alturas de estas estudiantes mujeres es $\mathsf{Norm}(\mu = 64, \sigma=3.5).$ entonces tengo más conocimiento sobre la población de lo que puedo deducir a partir de una muestra de $100$ mujeres.

Entonces puedo encontrar un puntaje z y usar tablas impresas de CDF normales para encontrar la proporción exacta de estudiantes de secundaria en la población que pesan más de 66". Para obtener el mejor resultado, debo usar $66.5$ porque las mujeres más altas que eso se redondearán a 67" o más. (Este ajuste se llama 'corrección de continuidad'.)

Luego $Z = \frac{66.5 - 64}{3.5} = 0.714.$ Y de la tabla impresa obtienes aproximadamente la proporción $0.238.$ [Por lo general, usar tablas impresas implica algún redondeo, con una pequeña pérdida de precisión.] Puedes usar la función CDF normal pnorm en R, para obtener el valor ligeramente más preciso $0.2376.$

z = (66.5-64)/3.5;  z
[1] 0.7142857
1 - pnorm(0.714)
[1] 0.2376136
1 - pnorm(66.5, 64, 3.5)
[1] 0.2375253

Por supuesto, la respuesta $0.238$ de la distribución exacta de la población es mucho mejor que la respuesta aproximada $0.19\pm 0.077$ estimada a partir de una muestra de solo 100 mujeres. Pero intentas hacer lo mejor que puedes con la información que tienes.

La probabilidad $0.238$ es el área bajo la curva de densidad a la derecha de la línea vertical.

hdr = "Densidad de NORM(64, 3.5)"
curve(dnorm(x, 64, 3.5), 50, 75, lwd=2, ylab="Densidad", main=hdr)
 abline(h = 0, col="green2");  abline(v = 66.5, lwd=2)

ingresa aquí una descripción de la imagen

Nota: La información en la línea de código de R

x = round(rnorm(100, 64, 3.5)) 

¡nunca se conocería en una situación práctica! Esto se utilizó solo para crear una muestra ficticia de 100. [No tengo una enorme población de mujeres de secundaria en mi oficina para usar en la toma de la muestra.]

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X