Basado en @whuber de Comentarios acerca de 'modelado', me dio un poco de pensamiento relativamente elementales de los métodos que podrían ser utilizados para estimar los parámetros de una distribución normal dado el tamaño de la muestra, la muestra en cuartiles, y la media de la muestra, asumiendo que los datos son normales.
La mayoría de esto va a funcionar mejor para muy grandes $n.$ Después de algunos experimentos, he encontrado que los tamaños de muestra de alrededor de 35 son lo suficientemente grandes como para obtener resultados razonablemente buenos. Todos los cálculos se realizan utilizando R; semillas (basado en las fechas actuales) se muestran para las simulaciones.
Hipotético ejemplo: Así que vamos a suponer que tenemos una muestra (redondeado a dos lugares) que se sabe que han llegado de una normal de la población de tamaño
$n = 35,$ pero se desconoce su $\mu$ $\sigma.$ Nos da que la media de la muestra es $A = 49.19,$ de la mediana de la muestra es $H = 47.72,$ y que los cuartiles inferior y superior se $Q_1 = 43.62,\, Q_3 = 54.73,$ respectivamente. (A veces, informes y artículos no dar completa de conjuntos de datos, pero no le dan de resumen de datos sobre la muestra.)
La estimación de la media de población. La mejor estimación de la media de la población es $\mu$ es la media de la muestra $A = \hat \mu = 49.19.$
La estimación de la desviación estándar de población: Si que lo sabía, una buena estimación de la población de la desviación estándar (SD), que sería el ejemplo de SD $S,$, pero que la información no está dada.
El rango intercuartil (IQR) de una normal estándar de la población $1.35,$ e IQR de una muy grande normal de la muestra sería de alrededor de $1.35\sigma.$
diff(qnorm(c(.25, .75)))
[1] 1.34898
set.seed(1018); IQR(rnorm(10^6))
[1] 1.351207
El IQR de nuestra muestra de tamaño $n = 35$ $54.73 - 43.62 = 11.11$ y se espera que la IQR de una normal estándar de la muestra de tamaño 35 es 1.274. Por lo que podemos estimar el $\sigma$ de nuestra población a utilizar el ejemplo de IQR: $\check \sigma = 11.11/1.274 = 8.72.$
set.seed(910); m = 10^6; n = 25
iqr = replicate(m, IQR(rnorm(n)))
mean(iqr); sd(iqr)
[1] 1.274278
[1] 0.3024651
La evaluación de los resultados: por Lo tanto, podemos suponer que la normal distribución de la población es de aproximadamente
$\mathsf{Norm}(49.19, 8.72).$ , De hecho, he simulado la muestra de
$\mathsf{Norm}(50, 10).$
set.seed(2018); x = round(rnorm(35, 50, 10), 2); summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
31.73 43.62 47.72 49.19 54.73 70.99
Parece que merece la pena hacer dos comparaciones: (a) ¿en qué medida la información dada partido de la CDF de $\mathsf{Norm}(49.19, 8.72),$ y (b) ¿en qué medida el CDF de esta distribución estimada coincide con lo que sabemos que es la verdadera distribución normal. Por supuesto,
en una situación práctica, no podemos conocer la verdadera distribución normal, por lo que la segunda comparación sería imposible.
En la siguiente figura, la curva azul es la estimación de la CDF; el sólido puntos rojos muestran los valores de la muestra $Q_1, H, Q_3,$ y el círculo rojo muestra $A.$ La CDF de la verdadera distribución normal se muestra como una curva rota. No es de extrañar que los tres valores de $Q_1, Q_3,$ $A$ utilizado para la estimación de los parámetros normales de otoño cerca de la normal estimado CDF.
curve(pnorm(x, 49.19, 8.27), 0, 80, lwd=2, ylab="CDF",
main="CDF of NORM(49.19, 8.27)", xaxs="i", col="blue")
abline(h=0:1, col="green2")
points(c(43.62, 47.72, 54.73), c(.25, .5, .75), pch=19, col="red")
curve(pnorm(x, 50, 10), add=T, lty="dotted")
points(49.19, .50, col="red")
Acerca de la simetría: Una pregunta que queda es ¿cuánto preocupación podría haber sido apropiadas acerca de la normalidad de los datos, al señalar que la media de la muestra supera la mediana de la muestra por $D = A - H = 49.19 - 47.72 = 1.47.$
Podemos obtener una buena idea de la simulación de la diferencia de $D = A - H$ para muchas de las muestras de tamaño $n = 35$ $\mathsf{Norm}(\mu = 49.19, \sigma = 8.27).$ Una simple simulación muestra que la mayor diferencia positiva podría ocurrir en una muestra normal, aproximadamente el 11% del tiempo.
set.seed(918); m = 10^6; n = 25; d = numeric(m)
for (i in 1:m) {
y = rnorm(n, 49.19, 8.27)
d[i] = mean(y) - median(y) }
mean(d > 1.47)
[1] 0.113
Por lo tanto no hay evidencia significativa de la asimetría en la comparación de la muestra la media y la mediana. Por supuesto, la de Laplace y Cauchy familias de distribuciones también son simétricos, por lo que esta no sería una "prueba" de que la muestra proviene de una población normal.