7 votos

Estimación imparcial de la desviación estándar de la población: ¿es sqrt (2) una corrección superior?

Antecedentes sobre la corrección del sesgo de las constantes de

La desviación estándar se calcula de la siguiente manera:

$$ SD = \left(\frac{1}{N-constante} \sum_{i=1}^N (x_i - \overline{x})^2\right)^{1/2} $$

Following Wikipedia's entry on the standard deviation, the biasedness of the estimation of a population SD given a sample depends on $constante$ in the following way:

  • $corrección=0$: sólo muestra sd, fuertemente sesgada a ser más pequeños que los de la población sd.
  • $correction=1$: La corrección de Bessel, menos sesgada, pero aún más pequeñas.
  • $correction=1.5$: "regla de oro", la única y mejor valor para una estimación insesgada.

Pregunta

He simulado y descubrió que $\sqrt{2}$ es un valor aún mejor para $constant$, especialmente para muestras pequeñas (n < 10) donde: $1.5$ sobrestima la población SD. He descubierto algo fantástico o me estoy perdiendo algo aquí?

Simulación

Para cada uno de los tamaños de muestra $n=2,3,5,10,20,60,100,200$, me generaron 3.000 muestras usando rnorm(n, 0, 15). Para cada tamaño de la muestra, a continuación, se estima la población SD utilizando cada una de las constantes anteriores. Aquí está el resultado:

simulation results

Cada parcela es diferente de la estimación de la constante. El "error" en el título es mean(sd.estimations - sd.real). La línea roja es el verdadero SD. La línea azul muestra la estimación de la sd. El gris vertical de las líneas de marca cambio en el tamaño de la muestra. Los puntos muestran individuales sd-estimaciones.

Está claro que $\sqrt{2}$ es superior a la $1.5$. Esto es cierto para las grandes tamaños de muestra así, aunque no está claro a partir de esta trama. Aquí está el R script que genera estas parcelas.

Actualización y conclusión

$\sqrt{2}$ está cerca de la analíticamente la solución correcta, pero no superar. Sigue siendo una heurística que podría ser utilizado por pereza o por eficiencia computacional con tamaños de muestra pequeños.

En realidad, la aproximación más cercana depende del tamaño de la muestra que se desea calcular. Aquí hay unos valores óptimos para diferentes tamaños de muestra:

  • $4 < n < 10$: $\sqrt{2.15} = 1.47$ se aparta con el 0,4% en la mayoría de los.
  • $10 < n < 50$: $\sqrt{2.22} = 1.49$ se desvía con un 0,04 % en la mayoría de los.
  • $40 < n < 300$: $\sqrt{2.2465} = 1.4988$ se desvía con 0.0025% en la mayoría de los.

Como el tamaño de la muestra aumenta, la constante de los enfoques de la "1.5 regla de oro". Por lo tanto la conclusión es que el $\sqrt(2)$ es rápida y sucia para tamaños de muestra pequeños. Para muestras más grandes, razonable aproximaciones que se pueden hacer con la versión 1.5.

Y para que quede claro: la corrección de Bessel es todavía el camino correcto para llegar imparcial a la hora de estimar la varianza. Las observaciones anteriores sólo se refieren a la estimación de la desviación estándar de población.

7voto

Jeff Bauer Puntos 236

Tal vez. Lo que parece que se hizo, es golpeado sobre la $c_4(N)$ factor de corrección indicado también en este artículo de la wikipedia. Específicamente: Te proponemos el estimador de

$$\tilde s = \frac 1{\sqrt {N-2^{1/2}}}\cdot (S_x)^{1/2} $$ donde $S_x$ es la suma de los cuadrados de las desviaciones de la media

El artículo que usted menciona define (aunque no muy claramente) el estimador de

$$\hat s = \frac 1{\sqrt {N-1}}\cdot\left[\sqrt{\frac{2}{N-1}}\,\,\,\frac{\Gamma\left(\frac{N}{2}\right)}{\Gamma\left(\frac{N-1}{2}\right)}\right]^{-1} \cdot (S_x)^{1/2} = \frac {\Gamma\left(\frac{N-1}{2}\right)}{2^{1/2}\Gamma\left(\frac{N}{2}\right)}\cdot (S_x)^{1/2}$$

donde

$$c_4(N) = \sqrt{\frac{2}{N-1}}\,\,\,\frac{\Gamma\left(\frac{N}{2}\right)}{\Gamma\left(\frac{N-1}{2}\right)}$$

El cálculo de los valores de los dos factores de multiplicación encontramos \begin{array}{| r | r | r |} \hline N & \frac{1}{\sqrt{N-2^{1/2}}} & \frac{1}{c_4(N)\sqrt{N-1}} \\ \hline 3 & 0.7941 & 0.7979 \\ 4 & 0.6219 & 0.6267 \\ 5 & 0.5281 & 0.5319 \\ 6 & 0.467 & 0.47 \\ 7 & 0.4231 & 0.4255 \\ 8 & 0.3897 & 0.3917 \\ 9 & 0.3631 & 0.3647 \\ 10 & 0.3413 & 0.3427 \\ 11 & 0.323 & 0.3242 \\ 12 & 0.3074 & 0.3084 \\ 13 & 0.2938 & 0.2947 \\ 14 & 0.2819 & 0.2827 \\ 15 & 0.2713 & 0.2721 \\ 16 & 0.2618 & 0.2625 \\ 17 & 0.2533 & 0.2539 \\ 18 & 0.2455 & 0.2461 \\ 19 & 0.2385 & 0.239 \\ 20 & 0.232 & 0.2325 \\ 21 & 0.226 & 0.2264 \\ 22 & 0.2204 & 0.2208 \\ 23 & 0.2152 & 0.2156 \\ 24 & 0.2104 & 0.2108 \\ 25 & 0.2059 & 0.2063 \\ 26 & 0.2017 & 0.202 \\ 27 & 0.1977 & 0.198 \\ 28 & 0.1939 & 0.1942 \\ 29 & 0.1904 & 0.1907 \\ 30 & 0.187 & 0.1873 \\ \hline \end{array}

Ahora lo que tienes que hacer es comprobar si esta cercanía en valores continúa por un gran $N$, y en segundo lugar simular la estimación usando el $c_4(N)$ factor de corrección, y compararlo con el suyo. Si esto sale favorable, a continuación, a) han encontrado una mejor, válida y útil (es más fácil de calcular) "regla de oro"/sustituto de la $c_4(N)$ factor de corrección, o b) ha encontrado un mejor factor de corrección. Si es b), entonces es la publicación de material.

2voto

Aksakal Puntos 11351

Si sentía que la corrección es necesaria más allá de la norma $n-1$ ¿por qué iba yo a hacer la regla de un dedo? Yo iría a por la expresión exacta, si es que saben, como en el caso de la distribución normal. Nunca he visto a nadie usar esta regla de pulgar de todos modos.

Por lo tanto, mi respuesta es no, no es nada fantástico. En el mejor de los que has encontrado un poco mejor ajuste a una prácticamente inútil regla general aplicable a la distribución normal. Esto seguramente no funcione para todas las distribuciones. Compruébelo usted mismo mediante la sustitución de rnorm() en su código por otra cosa, por ejemplo rchisq(size, df=0.1).

2voto

Por el bien de los demás que encontrar esta página, es probablemente vale la pena copia de seguridad de un paso y pregunte si usted realmente desea una estimación insesgada de la población SD o una estimación insesgada de la varianza de la población.

Si usted va a utilizar la tarjeta SD para calcular un intervalo de confianza de una media (o de la diferencia entre los dos medios), o para ejecutar una prueba de la t o ANOVA.., entonces creo que todas las matemáticas se basa en las desviaciones, no de desviaciones estándar. Para estos efectos, usted desea un insesgados de varianza, la cual es la desviación estándar elevada al cuadrado. Si calcular la SD utilizando la usual n-1 de la regla, la varianza será imparcial. Pero si calcular un imparcial SD, como se muestra aquí, entonces la varianza sería sesgada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X