Antecedentes sobre la corrección del sesgo de las constantes de
La desviación estándar se calcula de la siguiente manera:
$$ SD = \left(\frac{1}{N-constante} \sum_{i=1}^N (x_i - \overline{x})^2\right)^{1/2} $$
Following Wikipedia's entry on the standard deviation, the biasedness of the estimation of a population SD given a sample depends on $constante$ in the following way:
- $corrección=0$: sólo muestra sd, fuertemente sesgada a ser más pequeños que los de la población sd.
- $correction=1$: La corrección de Bessel, menos sesgada, pero aún más pequeñas.
- $correction=1.5$: "regla de oro", la única y mejor valor para una estimación insesgada.
Pregunta
He simulado y descubrió que $\sqrt{2}$ es un valor aún mejor para $constant$, especialmente para muestras pequeñas (n < 10) donde: $1.5$ sobrestima la población SD. He descubierto algo fantástico o me estoy perdiendo algo aquí?
Simulación
Para cada uno de los tamaños de muestra $n=2,3,5,10,20,60,100,200$, me generaron 3.000 muestras usando rnorm(n, 0, 15)
. Para cada tamaño de la muestra, a continuación, se estima la población SD utilizando cada una de las constantes anteriores. Aquí está el resultado:
Cada parcela es diferente de la estimación de la constante. El "error" en el título es mean(sd.estimations - sd.real)
. La línea roja es el verdadero SD. La línea azul muestra la estimación de la sd. El gris vertical de las líneas de marca cambio en el tamaño de la muestra. Los puntos muestran individuales sd-estimaciones.
Está claro que $\sqrt{2}$ es superior a la $1.5$. Esto es cierto para las grandes tamaños de muestra así, aunque no está claro a partir de esta trama. Aquí está el R script que genera estas parcelas.
Actualización y conclusión
$\sqrt{2}$ está cerca de la analíticamente la solución correcta, pero no superar. Sigue siendo una heurística que podría ser utilizado por pereza o por eficiencia computacional con tamaños de muestra pequeños.
En realidad, la aproximación más cercana depende del tamaño de la muestra que se desea calcular. Aquí hay unos valores óptimos para diferentes tamaños de muestra:
- $4 < n < 10$: $\sqrt{2.15} = 1.47$ se aparta con el 0,4% en la mayoría de los.
- $10 < n < 50$: $\sqrt{2.22} = 1.49$ se desvía con un 0,04 % en la mayoría de los.
- $40 < n < 300$: $\sqrt{2.2465} = 1.4988$ se desvía con 0.0025% en la mayoría de los.
Como el tamaño de la muestra aumenta, la constante de los enfoques de la "1.5 regla de oro". Por lo tanto la conclusión es que el $\sqrt(2)$ es rápida y sucia para tamaños de muestra pequeños. Para muestras más grandes, razonable aproximaciones que se pueden hacer con la versión 1.5.
Y para que quede claro: la corrección de Bessel es todavía el camino correcto para llegar imparcial a la hora de estimar la varianza. Las observaciones anteriores sólo se refieren a la estimación de la desviación estándar de población.