Aquí están las fórmulas iterativas (con derivaciones) para el población (N normalizado) y muestra (N-1 normalizada) desviaciones estándar, que expresan la $\sigma_{n+1}$ ( $s_{n+1}$ para la muestra) para el $n+1$ valor establecido en términos de $\sigma_{n}$ ( $s_{n}$ para la muestra), $\bar x_{n}$ de la $n$ valor establecido más el nuevo valor $x_{n+1}$ añadido al conjunto.
Esencialmente necesitamos encontrar:
$$\bar x_{n+1} = f(n, \bar x_n, x_{n+1})$$ y $$\sigma_{n+1} = g(n, \sigma_n, \bar x_n, x_{n+1})$$
Derivación de la media
En ambos casos, la media de $n\geqslant1$ es,
para los valores n: $$ \bar x_n=\frac1n\sum_{k=1}^nx_k $$
para los valores n+1: $$ \bar x_{n+1}=\frac1{n+1}\sum_{k=1}^{n+1}x_k = \frac1{n+1}(n\bar x_n + x_{n+1}) \leftarrow f(n, \bar x_n, x_{n+1}) $$
Derivación de la desviación estándar
Las fórmulas de desviación estándar para población y muestra son:
\begin{aligned} \sigma_{n} &= \sqrt {\frac1{n} \sum_{k=1}^{n}(x_k - \bar x_{n})^2 } && \textit{for} \textbf{ population } \textit{Standard Deviation}\\ \\ s_{n} &= \sqrt {\frac1{n-1} \sum_{k=1}^{n}(x_k - \bar x_{n})^2 } && \textit{for} \textbf{ sample } \textit{Standard Deviation } \\ \end{aligned}
Para consolidar las derivaciones de ambos población y muestra fórmulas escribiremos la desviación estándar utilizando un factor genérico $\alpha_{n}$ y reemplazarlo al final para obtener las fórmulas de población y muestra.
con:
\begin{equation} \alpha_{n} = \begin{cases} n & \textit{for} \textbf{ population } \textit{Standard Deviation} \\ n-1 & \textit{for} \textbf{ sample } \textit{Standard Deviation } \\ \end{cases} \end{equation}
la ecuación de la desviación estándar para los n valores se puede escribir como
\begin{equation} \tag{1} \alpha_{n}\sigma^2_{n} = \sum_{k=1}^{n}(x_k - \bar x_{n})^2 = \sum_{k=1}^{n}x_k^2 - n (\bar x_{n})^2 \end{equation}
Así, la misma ecuación para los valores n+1 es:
\begin{equation} \begin{aligned} \alpha_{n+1}\sigma^2_{n+1} & = \sum_{k=1}^{n+1}(x_k-\bar x_{n+1})^2 \\ & = \sum_{k=1}^{n+1}x_k^2 - (n+1)(\bar x_{n+1})^2 \\ & = \sum_{k=1}^{n}x_k^2 + (x_{n+1})^2 - (n+1)(\bar x_{n+1})^2 \\ & = \sum_{k=1}^{n}x_k^2 + (x_{n+1})^2 - (n+1) \big(\frac1{n+1}(n\bar x_{n} + x_{n+1}) \big)^2 \\ & = \sum_{k=1}^{n}x_k^2 + (x_{n+1})^2 - \frac1{n+1} \big(n^2(\bar x_{n})^2 + 2 n \bar x_{n} x_{n+1} + (x_{n+1})^2 \big) \\ \end{aligned} \end{equation}
de la ecuación (1) sustituimos $\sum_{k=1}^{n}x_k^2$ con $\alpha_{n}\sigma^2_{n} + n (\bar x_{n})^2$ y conseguir:
\begin{equation} \begin{aligned} \alpha_{n+1}\sigma^2_{n+1} & = \alpha_{n}\sigma^2_{n} + n (\bar x_{n})^2 + (x_{n+1})^2 - \frac1{n+1} \big(n^2(\bar x_{n})^2 + 2 n \bar x_{n} x_{n+1} + (x_{n+1})^2 \big) \\ \end{aligned} \end{equation}
ordenando los términos y simplificando obtenemos:
$$ \sigma_{n+1} = \sqrt { \Big( \sigma^2_{n} + \frac{n}{n+1} \frac1{\alpha_n} (\bar x_n - x_{n+1})^2 \Big) \frac{\alpha_{n}}{\alpha_{n+1}} } \leftarrow g(n, \sigma_n, \bar x_n, x_{n+1}) $$
Sustitución de la $\alpha$ las fórmulas iterativas específicas para población y muestra desviaciones estándar son:
\begin{equation} \begin{aligned} \sigma_{n+1} &= \sqrt{ \Big( \sigma^2_{n} + \frac{1}{n+1}(\bar x_n - x_{n+1})^2 \Big) \frac{n}{n+1} } &&\textit{population STD} \\ \\ s_{n+1} &= \sqrt{ \Big( s^2_{n} + \frac{n}{n^2-1}(\bar x_n - x_{n+1})^2 \Big) \frac{n-1}{n} } &&\textit{sample STD} \\ \end{aligned} \end{equation}
0 votos
Se puede estimar la varianza mediante un muestreo aleatorio del conjunto de datos. Véase Wikipedia para más detalles.
0 votos
A menos que los datos se pongan a tu disposición de uno en uno, los métodos recursivos para calcular la varianza suelen requerir más cálculos que el cálculo directo. Dado que el conjunto de datos es grande, una sugerencia es calcular la suma y la suma de cuadrados simultáneamente para que sólo se necesite una pasada por la matriz en lugar de dos (como en calcular $\sum_i x_i$ y dividir por $n$ para obtener $\bar{x}$ . A continuación, calcule $\sum_i (x_i-\bar{x})^2$ ).
0 votos
Los valores del conjunto de datos son demasiado grandes para calcular la suma de todos los valores a la vez.