¿Cuál es un estimador de la desviación estándar de la desviación estándar si se puede suponer la normalidad de los datos?
Respuestas
¿Demasiados anuncios?Dejemos que $X_1, ..., X_n \sim N(\mu, \sigma^2)$ . Como se muestra en este hilo la desviación estándar de la desviación estándar de la muestra,
$$ s = \sqrt{ \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X}) }, $$
es
$$ {\rm SD}(s) = \sqrt{ E \left( [E(s)- s]^2 \right) } = \sigma \sqrt{ 1 - \frac{2}{n-1} \cdot \left( \frac{ \Gamma(n/2) }{ \Gamma( \frac{n-1}{2} ) } \right)^2 } $$
donde $\Gamma(\cdot)$ es el función gamma , $n$ es el tamaño de la muestra y $\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$ es la media de la muestra. Dado que $s$ es un estimador consistente de $\sigma$ Esto sugiere reemplazar $\sigma$ con $s$ en la ecuación anterior para obtener un estimador consistente de ${\rm SD}(s)$ .
Si lo que se busca es un estimador insesgado, vemos en este hilo que $ E(s) = \sigma \cdot \sqrt{ \frac{2}{n-1} } \cdot \frac{ \Gamma(n/2) }{ \Gamma( \frac{n-1}{2} ) } $ que, por la linealidad de la expectativa, sugiere
$$ s \cdot \sqrt{ \frac{n-1}{2} } \cdot \frac{\Gamma( \frac{n-1}{2} )}{ \Gamma(n/2) } $$
como un estimador insesgado de $\sigma$ . Todo esto, junto con la linealidad de la expectativa, da un estimador insesgado de ${\rm SD}(s)$ :
$$ s \cdot \frac{\Gamma( \frac{n-1}{2} )}{ \Gamma(n/2) } \cdot \sqrt{\frac{n-1}{2} - \left( \frac{ \Gamma(n/2) }{ \Gamma( \frac{n-1}{2} ) } \right)^2 } $$
Suponga que observa $X_1,\dots,X_n$ iid de una normal con media cero y varianza $\sigma^2$ . La desviación estándar (empírica) es la raíz cuadrada del estimador $\hat{\sigma}^2$ de $\sigma^2$ (imparcial o no, esa no es la cuestión). Como estimador (obtenido con $X_1,\dots,X_n$ ), $\hat{\sigma}$ tiene una varianza que se puede calcular teóricamente. Tal vez lo que se llama la desviación estándar de la desviación estándar es en realidad la raíz cuadrada de la varianza de la desviación estándar, es decir $\sqrt{E[(\sigma-\hat{\sigma})^2]}$ ? No es un estimador, es una cantidad teórica (algo así como $\sigma/\sqrt{n}$ ¡por confirmar) que se puede calcular explícitamente !
@Macro proporcionó una gran explicación matemática con ecuación para calcular. Aquí hay una explicación más general para los menos matemáticos.
Creo que la terminología "SD de SD" es confusa para muchos. Es más fácil pensar en el intervalo de confianza de una DS. ¿Qué precisión tiene la desviación estándar que se calcula a partir de una muestra? Por casualidad, puedes haber obtenido datos muy agrupados, lo que hace que la DS de la muestra sea mucho menor que la DS de la población. O puede haber obtenido al azar valores mucho más dispersos que la población total, haciendo que la DE de la muestra sea mayor que la de la población.
La interpretación del IC de la DS es sencilla. Empiece con la suposición habitual de que sus datos fueron muestreados de forma aleatoria e independiente a partir de una distribución gaussiana. Ahora repita este muestreo muchas veces. Se espera que el 95% de esos intervalos de confianza incluyan la verdadera DE de la población.
¿Qué amplitud tiene el intervalo de confianza del 95% de una DE? Depende del tamaño de la muestra (n), por supuesto.
n: IC del 95% de la DE
2: 0,45*SD a 31,9*SD
3: 0,52*SD a 6,29*SD
5: 0,60*SD a 2,87*SD
10: 0,69*SD a 1,83*SD
25: 0,78*SD a 1,39*SD
50: 0,84*SD a 1,25*SD
100: 0,88*SD a 1,16*SD
500: 0,94*SD a 1,07*SD