5 votos

Construir una (es normal?) distribución de n, los cuartiles y la media?

Tengo algunos datos que es descrito por n, los cuartiles (+ adicional cuantil punto) y la media. Es posible reconstruir o modelo de distribución de estas estadísticas? Como la mediana y la media no son los mismos, hay al menos algunos de sesgo, pero por lo demás, supongo que los datos a ser igual de normal.

Edit: Esto fue marcado como un duplicado, pero en las otras preguntas que he encontrado al buscar, ninguno de ellos se incluye la información relativa a la media como un punto de datos para recrear la distribución. Debido a que el parámetro adicional, me preguntaba si se hizo la estimación posible. En resumen, el efecto de tener la media no fue evidente a partir de las respuestas relacionadas con la cuestión.

3voto

manku Puntos 111

Basado en @whuber de Comentarios acerca de 'modelado', me dio un poco de pensamiento relativamente elementales de los métodos que podrían ser utilizados para estimar los parámetros de una distribución normal dado el tamaño de la muestra, la muestra en cuartiles, y la media de la muestra, asumiendo que los datos son normales.

La mayoría de esto va a funcionar mejor para muy grandes $n.$ Después de algunos experimentos, he encontrado que los tamaños de muestra de alrededor de 35 son lo suficientemente grandes como para obtener resultados razonablemente buenos. Todos los cálculos se realizan utilizando R; semillas (basado en las fechas actuales) se muestran para las simulaciones.

Hipotético ejemplo: Así que vamos a suponer que tenemos una muestra (redondeado a dos lugares) que se sabe que han llegado de una normal de la población de tamaño $n = 35,$ pero se desconoce su $\mu$ $\sigma.$ Nos da que la media de la muestra es $A = 49.19,$ de la mediana de la muestra es $H = 47.72,$ y que los cuartiles inferior y superior se $Q_1 = 43.62,\, Q_3 = 54.73,$ respectivamente. (A veces, informes y artículos no dar completa de conjuntos de datos, pero no le dan de resumen de datos sobre la muestra.)

La estimación de la media de población. La mejor estimación de la media de la población es $\mu$ es la media de la muestra $A = \hat \mu = 49.19.$

La estimación de la desviación estándar de población: Si que lo sabía, una buena estimación de la población de la desviación estándar (SD), que sería el ejemplo de SD $S,$, pero que la información no está dada. El rango intercuartil (IQR) de una normal estándar de la población $1.35,$ e IQR de una muy grande normal de la muestra sería de alrededor de $1.35\sigma.$

diff(qnorm(c(.25, .75)))
[1] 1.34898
set.seed(1018); IQR(rnorm(10^6))
[1] 1.351207

El IQR de nuestra muestra de tamaño $n = 35$ $54.73 - 43.62 = 11.11$ y se espera que la IQR de una normal estándar de la muestra de tamaño 35 es 1.274. Por lo que podemos estimar el $\sigma$ de nuestra población a utilizar el ejemplo de IQR: $\check \sigma = 11.11/1.274 = 8.72.$

set.seed(910);  m = 10^6;  n = 25
iqr = replicate(m, IQR(rnorm(n)))
mean(iqr);  sd(iqr)
[1] 1.274278
[1] 0.3024651

La evaluación de los resultados: por Lo tanto, podemos suponer que la normal distribución de la población es de aproximadamente $\mathsf{Norm}(49.19, 8.72).$ , De hecho, he simulado la muestra de $\mathsf{Norm}(50, 10).$

set.seed(2018);  x = round(rnorm(35, 50, 10), 2);  summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  31.73   43.62   47.72   49.19   54.73   70.99

Parece que merece la pena hacer dos comparaciones: (a) ¿en qué medida la información dada partido de la CDF de $\mathsf{Norm}(49.19, 8.72),$ y (b) ¿en qué medida el CDF de esta distribución estimada coincide con lo que sabemos que es la verdadera distribución normal. Por supuesto, en una situación práctica, no podemos conocer la verdadera distribución normal, por lo que la segunda comparación sería imposible.

En la siguiente figura, la curva azul es la estimación de la CDF; el sólido puntos rojos muestran los valores de la muestra $Q_1, H, Q_3,$ y el círculo rojo muestra $A.$ La CDF de la verdadera distribución normal se muestra como una curva rota. No es de extrañar que los tres valores de $Q_1, Q_3,$ $A$ utilizado para la estimación de los parámetros normales de otoño cerca de la normal estimado CDF.

curve(pnorm(x, 49.19, 8.27), 0, 80, lwd=2, ylab="CDF", 
    main="CDF of NORM(49.19, 8.27)", xaxs="i", col="blue")
  abline(h=0:1, col="green2")
  points(c(43.62, 47.72, 54.73), c(.25, .5, .75), pch=19, col="red")
  curve(pnorm(x, 50, 10), add=T, lty="dotted")
  points(49.19, .50, col="red")

enter image description here

Acerca de la simetría: Una pregunta que queda es ¿cuánto preocupación podría haber sido apropiadas acerca de la normalidad de los datos, al señalar que la media de la muestra supera la mediana de la muestra por $D = A - H = 49.19 - 47.72 = 1.47.$ Podemos obtener una buena idea de la simulación de la diferencia de $D = A - H$ para muchas de las muestras de tamaño $n = 35$ $\mathsf{Norm}(\mu = 49.19, \sigma = 8.27).$ Una simple simulación muestra que la mayor diferencia positiva podría ocurrir en una muestra normal, aproximadamente el 11% del tiempo.

set.seed(918);  m = 10^6;  n = 25;  d = numeric(m)
for (i in 1:m) { 
   y = rnorm(n, 49.19, 8.27)
   d[i] = mean(y) - median(y) }
mean(d > 1.47)
[1] 0.113

Por lo tanto no hay evidencia significativa de la asimetría en la comparación de la muestra la media y la mediana. Por supuesto, la de Laplace y Cauchy familias de distribuciones también son simétricos, por lo que esta no sería una "prueba" de que la muestra proviene de una población normal.

3voto

manku Puntos 111

La respuesta es no, no exactamente, de todos modos.

Si usted tiene dos cuartiles normal de la población , a continuación, usted puede encontrar $\mu$ $\sigma.$ Por ejemplo la parte inferior y superior de cuantiles de $\mathsf{Norm}(\mu = 100,\, \sigma = 10)$ $93.255$ $106.745,$ respectivamente.

 qnorm(c(.25, .75), 100, 10)
 [1]  93.2551 106.7449

A continuación, $P\left(\frac{X-\mu}{\sigma} < -0.6745\right) = 0.25$ y $P\left(\frac{X-\mu}{\sigma} < 0.6745\right) = 0.75$ proporcionar dos ecuaciones que se pueden resolver para encontrar $\mu$ $\sigma.$

qnorm(c(.25,.75))
[1] -0.6744898  0.6744898

Sin embargo, muestra los cuartiles no son de la población cuartiles. No hay suficiente información en cualquier normal de la muestra, precisamente, para determinar $\mu$ y $\sigma.$

Y usted no está realmente seguro de que la muestra proviene de una población normal. Si la población tiene una media $\mu$ y la mediana de la $\eta,$ la muestra la media y la mediana, respectivamente, son las estimaciones de estas dos los parámetros. Si la población es simétrico, entonces la $\mu = \eta,$ pero usted dice que la muestra la media y la mediana no está de acuerdo. Así que usted puede estar seguro de la población es simétrica, mucho menos normal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X