El estudio que estoy revisando informes de altura media para 20 sujetos como 1,70 metros con una desviación estándar de 0.0. ¿Significa esto que todos 20 son exactamente 1,70 metros? ¿O es un error de presentación de informes?
Respuestas
¿Demasiados anuncios?De acuerdo a este biología SE subproceso, la desviación estándar de adulto masculino altura es de alrededor de $0.07$ metros, y la de las hembras es acerca de $0.06$ metros.
Redondeo de estos a un decimal daría $0.1$ metros. El hecho de que la desviación estándar es reportado como $0.0$ m indica una desviación estándar por debajo de $0.05$ metros ... pero una desviación estándar de, digamos, $0.048$ metros todavía sería consistente con el reporte de la figura, ya que podría redondear a $0.0$, sin embargo, podría indicar una variación en las alturas de la muestra sólo ligeramente menor que la variabilidad que observamos a diario en la población general.
Es la figura que bien informado? Así, sería mucho más útil si la desviación estándar se había informado de dos decimales, como la media fue. También puede ser un simple numérico o error de redondeo; por ejemplo, $0.07$ podría haber sido truncada a $0.0$ en lugar de redondeada. Pero puede ser posible que la cifra se refiere al error estándar en su lugar? A menudo veo cifras escritas en una forma que resulta ambiguo si una desviación estándar o error estándar que está siendo citado — por ejemplo, "la media de la muestra es $1.62 (\pm 0.06)$".
Cuán plausible es la de corregir la desviación estándar de la ronda de a $0.0$ a un decimal? El siguiente código R simula un millón de muestras de tamaño veinte tomada de una población de la desviación estándar $0.06$ (como ha sido reportado en otros lugares para las mujeres de altura), se encuentra la desviación estándar para cada muestra, las parcelas de un histograma de los resultados, y se calcula la proporción de las muestras en las que la desviación estándar observada fue menor $0.05$:
set.seed(123) #so uses same random numbers each time code is run
x <- replicate(1e6, sd(rnorm(20, sd=0.06)))
hist(x)
sum(x < 0.05)/1e6
[1] 0.170691
Por lo tanto, una desviación estándar que se redondea a $0.0$ no es inverosímil, que se producen alrededor de diecisiete por ciento de las veces, si alturas están distribuidos normalmente con una verdadera desviación estándar $0.06$.
Sujeto a estos supuestos también podemos calcular, en lugar de simular, que la probabilidad es aproximadamente de diecisiete por ciento, de la siguiente manera:
$$P(S^2 < 0.05^2) = P\left(\frac{19 S^2}{0.06^2} < \frac{19 \times 0.05^2}{0.06^2}\right) = P\left(\frac{19 S^2}{0.06^2} < 13.194\right) = 0.1715$$
where we have used the fact that ${(n-1) S^2}/{\sigma^2} = {19 S^2}/{0.06^2}$ follows the chi-squared distribution with $n-1 = 19$ degrees of freedom. You can calculate the probability in R using pchisq(q = 19*0.05^2/0.06^2, df = 19)
; if you replace $0.06$ by $0.07$ in line with published figures for male standard deviations, the probability is reduced to about four percent. As @whuber points out in the comments below, this kind of small "rounds to zero" SD is more likely to occur if the group sampled from was more homogeneous than the general population. If the population standard deviation is about $0.06$ metros, entonces la probabilidad de obtener una muestra tan pequeña desviación estándar también han disminuido si el tamaño de la muestra había sido más grande.
curve(pchisq(q = 19*0.05^2/x^2, df = 19), from=0.005, to=0.1,
xlab="Population SD", ylab="Probability sample SD < 0.05 if n = 20")
curve(pchisq(q = (x-1)*0.05^2/0.06^2, df = x-1), from=2, to=50, ylim=c(0,0.6),
xlab="Sample size", ylab="Probability sample SD < 0.05 if population SD = 0.06")