11 votos

Cálculo de la incertidumbre en la desviación estándar

Tengo una distribución con un número literalmente infinito de puntos de datos potenciales. Necesito la desviación estándar. Genero un centenar de puntos y tomo la desviación estándar de los puntos. Esto da una buena aproximación de la verdadera desviación estándar, pero no será exacta, por supuesto. ¿Cómo puedo estimar la incertidumbre en la desviación estándar? Parece una pregunta muy básica, pero la búsqueda en la web no ha proporcionado ninguna solución. Si me he perdido algo, mis disculpas.

10voto

Lior Avrahami Puntos 51

La respuesta a la pregunta del OP depende de si se conoce o no la media de la distribución. si se conoce la media (por ejemplo, si se sabe que la media de la población muestreada debe promediar eventualmente para ser cero), el problema es un poco diferente, no por mucho, pero no hice la investigación para averiguar hasta qué punto, [4] podría ayudar. Asumo que la media no se conoce.

así que tienes una muestra de 100 valores, de los que no conoces la media ni la varianza. puedes calcular el estimador insesgado de la varianza:[1] $$S^2 = variance\ estimator = \frac{1}{n-1}\sum_i\left(x_i- \frac{\sum x}{n}\right)^2 = \frac{1}{n(n-1)}\sum_{i,j}\frac{(x_i-x_j)^2}{2}$$

pero también se quiere saber la precisión de esta estimación de la varianza de la muestra. así que en otras palabras se quiere la varianza del estimador de la varianza. $Var\left(S^2\right)$ esto se demuestra en [2]: $$Var\left(S^2\right)=\frac{1}{n}\left(\mu_4-\frac{n-3}{n-1}\mu_2^2\right)$$

$$where\ \ \mu_k := E[(X-E[X])^k]$$ ( $\mu_k$ son los momentos centrados) y así se obtiene: $$\sigma^2:=\mu_2 = S^2 \pm \sqrt{\frac{1}{n}\left(\mu_4-\frac{n-3}{n-1}\mu_2^2\right)}$$ pero lamentablemente esto no se da en función de sus puntos de datos (es una función de $\mu_4,\mu_2$ ambos desconocidos), lo que realmente se quiere es un estimador insesgado para $Var\left(S^2\right)$ . En general, no es fácil encontrar estimadores insesgados de una función no lineal (en este caso, creo que es probablemente imposible), así que, por lo que sé, habrá que lidiar con algún sesgo. $\mu_4,\mu_2$ y conectarlos a $\sqrt{\frac{1}{n}\left(\mu_4-\frac{n-3}{n-1}\mu_2^2\right)}$ e ignorar el sesgo que surge de la no linealidad. los estimadores insesgados para momentos centrados ( $\mu_4,\mu_2$ ) se llaman estadísticas H, son bastante fáciles de encontrar en Internet o en libros y no son demasiado complejas de calcular. para mis usos la estadística H para $\mu_4$ es una expresión bastante terrible [3], y como ya he dicho, usarla no está exenta de prejuicios, así que lo que decidí hacer fue asumir que Xi es lo suficientemente cercano a la gaussiana para que $\mu_4=3\mu_2^2$ y así lo conseguí: $$Var\left(S^2\right)= \frac{1}{n}\left(\mu_4-\frac{n-3}{n-1}\mu_2^2\right)= \frac{1}{n}\left(3\mu_2^2-\frac{n-3}{n-1}\mu_2^2\right)= \frac{1}{n}\left(3-\frac{n-3}{n-1}\right)\mu_2^2= \frac{1}{n}\left(\frac{2n}{n-1}\right)\mu_2^2= \frac{2\mu_2^2}{n-1}$$

y así ahora (suponiendo que $\mu_4=3\mu_2^2$ ): $$\sigma^2:=\mu_2 = S^2 \pm \sqrt{\frac{2}{n-1}} \sigma^2\approx S^2 \pm \sqrt{\frac{2}{n-1}} S^2$$

para terminar, OP pidió la incertidumbre en S y no en $S^2$ . por lo que si se utiliza la propagación de la incertidumbre [5] para evaluar cómo se ve afectada la incertidumbre al sacar la raíz cuadrada:

( $SE$ es el error estándar) $$SE[\sqrt{Y}]\approx\frac{1}{2\sqrt{E[Y]}}SE[Y]$$ $$\sigma = S \pm \frac{1}{2\sqrt{S^2}}\sqrt{\frac{2}{n-1}}S^2= S \pm \frac{S}{\sqrt{2n-2}}$$

que coincide con las otras respuestas.

referencias:

[1] - Algunas propiedades de la varianza muestral Por Eric Benhamou

https://arxiv.org/pdf/1809.03774.pdf

[2] - Varianza de la varianza simple Por Eungchun Cho y Moon Jung Cho

http://www.asasrms.org/Proceedings/y2008/Files/300992.pdf

[3] - WolframMathWorld h-Staatistic

https://mathworld.wolfram.com/h-Statistic.html

[4] - StatLect Estimación puntual de la varianza

https://www.statlect.com/fundamentals-of-statistics/variance-estimation

[5] - Wikipedia Propagación de la incertidumbre 26/09/2020

https://en.wikipedia.org/wiki/Propagation_of_uncertainty

9voto

hsauf Puntos 1

Si desea averiguar la incertidumbre o el error estándar (SE) en la desviación estándar de una muestra elegida, puede utilizar simplemente $SE(\sigma) = \frac{\sigma}{\sqrt{2N - 2}}$ , donde $N$ es el número de puntos de datos de la muestra.

Espero que eso ayude.

4voto

MichaelChirico Puntos 1545

Si se permite tomar esa muestra repetidamente, es básicamente bootstrapping.

Procedimiento:

  1. Sorteo de 100 puntos

  2. Calcular la desviación estándar

  3. Repita los pasos 1 y 2 muchas veces (empíricamente, he comprobado que entre 5 y 10.000 son suficientes), llevando la cuenta de los resultados del paso 2.

  4. Examine la distribución de las estimaciones del paso 2 con las herramientas que desee: histogramas, momentos muestrales, etc.

3voto

user81560 Puntos 31

Me gustaría dar una explicación de por qué, según una de las respuestas, si $S$ es la desviación estándar de la muestra, $$\text{SE}(S) = \dfrac{\sigma}{\sqrt{2N-2}}\text{.}$$ Un resultado bien conocido en probabilidad es el siguiente: si $S^2$ es la varianza de la muestra, $N$ es el tamaño de la muestra, y $\sigma^2$ es la varianza de la población, entonces suponiendo que se tiene $N$ observaciones independientes e idénticamente distribuidas de una distribución normal, $\dfrac{(N-1)S^2}{\sigma^2}$ sigue un $\chi^2$ distribución con $N-1$ grados de libertad.

Tenga en cuenta las suposiciones que se requieren de lo anterior.

Entonces se deduce que dejando $\chi^2_{N-1}$ denotan una variable aleatoria con un $\chi^2$ distribución con $N-1$ grados de libertad, $S^2 \sim \dfrac{\sigma^2}{N-1}\chi^2_{N-1}$ tenemos $S \sim \dfrac{\sigma}{N-1}\chi_{N-1}$ , donde $\chi_{N-1}$ es un variable aleatoria con distribución chi .

La varianza del $\chi_{N-1}$ -La variable aleatoria distribuida es $$\text{Var}(\chi_{N-1}) = (N-1)-\mu^2\text{.}$$ Utilizando un grande- $N$ aproximación basado en la aproximación de Stirling para $\Gamma$ obtenemos $\text{Var}(\chi_{N-1}) \approx \dfrac{N-1}{2N}\text{.}$

Así, $$\text{Var}(S)\approx \dfrac{\sigma^2}{(N-1)^2}\cdot \dfrac{N-1}{2N} = \dfrac{\sigma^2}{2N(N-1)}$$

o $$\text{SD}(S) \approx \dfrac{\sigma}{\sqrt{2N(N-1)}} = \dfrac{\sigma}{\sqrt{2N^2-2N}}$$

Así que, al menos en base a la derivación que tengo aquí, suponiendo que mi trabajo sea correcto, la fórmula proporcionada anteriormente es incorrecta.


En cualquier caso, observe las suposiciones que se hacen en esta derivación, en particular que su muestra procede de una población con distribución normal. La mayoría de los datos del mundo real no se distribuyen normalmente, por lo que en una situación práctica, recomendaría hacer un bootstrap, como se sugiere en otra respuesta.

3voto

Rivers McForge Puntos 43

Esto es bastante estándar y se puede responder buscando "Intervalo de confianza de una desviación estándar". Aquí están los pasos:

Paso 1) Elegir un nivel de confianza . El nivel de confianza es la probabilidad de que su estimación del intervalo contenga la desviación estándar real de la población. Las opciones comunes para los niveles de confianza son 90%, 95%, 99%. Voy a trabajar a través de los pasos para un intervalo de confianza del 90%.

Paso 2) Utilizar un distribución chi-cuadrado para encontrar el valores críticos izquierdo y derecho $\chi^2_L, \chi^2_R$ para el nivel de confianza elegido. Los grados de libertad son el tamaño de la muestra menos uno, en este caso, $99$ . Para su ejemplo, los valores críticos para un 90% de confianza serían aproximadamente $\chi^2_L = 77.93$ , $\chi^2_R = 124.32$

Paso 3) Utilizar la desviación estándar de la muestra $s$ y el tamaño de la muestra $n$ para encontrar los puntos finales izquierdo y derecho del intervalo de confianza para la desviación estándar de la población $\sigma$ mediante la fórmula: $$s\sqrt{ \frac{n-1}{\chi^2_R}} < \sigma < s\sqrt{ \frac{n-1}{\chi^2_L}}.$$ En su ejemplo, cualquiera que sea su valor para $s$ era, se puede confiar en un 90% en que el verdadero valor de $\sigma$ está entre $s \sqrt{ \frac{99}{124.32}} = 0.892s$ en el extremo inferior, y $s \sqrt{ \frac{99}{77.93}} = 1.127s$ en el extremo superior.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X