Esta es una pregunta antigua pero la respuesta aceptada es incorrecta o al menos incompleta. El usuario quiere calcular la desviación estándar sobre datos de 12 meses donde la media y la desviación estándar ya están calculadas para cada mes. Suponiendo que el número de muestras en cada mes es el mismo, entonces es posible calcular la media y la varianza de la muestra durante el año a partir de los datos de cada mes. Para simplificar, supongamos que tenemos dos conjuntos de datos:
$X=\{x_1,....x_N\}$
$Y=\{y_1,....,y_N\}$
con valores conocidos de la media de la muestra y la varianza de la muestra, $\mu_x$, $\mu_y$, $\sigma^2_x$, $\sigma^2_y$.
Ahora queremos calcular los mismos estimados para
$Z=\{x_1,....,x_N, y_1,...,y_N\}$
Tenga en cuenta que $\mu_x$, $\sigma^2_x$ se calculan de la siguiente manera:
$\mu_x = \frac{\sum^N_{i=1} x_i}{N}$
$\sigma^2_x = \frac{\sum^N_{i=1} x^2_i}{N}-\mu^2_x$
Para estimar la media y varianza sobre el conjunto total necesitamos calcular:
$\mu_z = \frac{\sum^N_{i=1} x_i +\sum^N_{i=1} y_i }{2N}= (\mu_x+\mu_y)/2$ que se encuentra en la respuesta aceptada. Sin embargo, la historia es diferente para la varianza:
$\sigma^2_z = \frac{\sum^N_{i=1} x^2_i +\sum^N_{i=1} y^2_i }{2N}-\mu^2_z$
$\sigma^2_z = \frac{1 }{2}(\frac{\sum^N_{i=1} x^2_i}{N}-\mu^2_x + \frac{\sum^N_{i=1} y^2_i}{N}-\mu^2_y )+\frac{1 }{2}(\mu^2_x+\mu^2_y) -(\frac{\mu_x+\mu_y}{2})^2$
$\sigma^2_z = \frac{1 }{2}(\sigma^2_x+\sigma^2_y )+(\frac{\mu_x-\mu_y}{2})^2$
Entonces, si tiene la varianza sobre cada subconjunto y desea la varianza sobre todo el conjunto, puede promediar las varianzas de cada subconjunto si todas tienen la misma media. De lo contrario, necesita agregar la varianza de la media de cada subconjunto.
Como ejemplo, suponga que durante la primera mitad del año producimos exactamente 1000 MWh por día y en la segunda mitad producimos 2000 MWh por día. Entonces la media y varianza de la producción de energía en la primera y segunda mitad son 1000 y 2000 para la media y 0 para la varianza de cada semestre. Ahora queremos calcular la varianza de la producción de energía durante todo el año. Si promediamos las dos varianzas llegamos a cero, lo cual no es correcto ya que la energía por día durante todo el año no es constante. Por lo tanto, necesitamos agregar la varianza de todas las medias de cada subconjunto.
Esto tiene una conexión cercana con la ley de varianza total. ingresa aquí para más información.
$$\operatorname{Var}(Y) = \operatorname{E}[\operatorname{Var}(Y \mid X)] + \operatorname{Var}(\operatorname{E}[Y \mid X])$$
Para usar el teorema anterior en este caso, podemos interpretar la variable de condicionamiento X como que Y pertenece al grupo $X_i$. En el contexto de la pregunta original, X es la variable aleatoria que indica el mes del año y Y es la producción de energía por día.
7 votos
Una discusión siguiente a una respuesta ahora eliminada señaló una posible ambigüedad en esta pregunta: ¿buscas la desviación estándar de los promedios mensuales o quieres recuperar la desviación estándar de todos los valores originales de los que se construyeron esos promedios? Esa respuesta también señaló correctamente que si quieres lo último, necesitarás los números de valores involucrados en cada uno de los promedios mensuales.
2 votos
Un comentario a otra respuesta eliminada señaló que es extraño calcular un promedio como una suma: seguramente significa que estás promediando los promedios mensuales. Pero si lo que deseas es estimar el promedio de todos los datos originales, entonces tal procedimiento no suele ser bueno: se necesita un promedio ponderado. Y por supuesto no es posible dar una buena respuesta a tu pregunta sobre la "DE para el promedio sumado" hasta que esté claro qué es el "promedio sumado" y qué se pretende que represente. Por favor acláralo para nosotros.
1 votos
@whuber he añadido un ejemplo para aclarar. Matemáticamente creo que la suma de promedios es igual al promedio mensual multiplicado por 12.
0 votos
OK, entonces para hacer esto un poco más abstracto: tienes doce variables $\bar{X}_1,\ldots,\bar{X}_{12}$, cada una de las cuales corresponde a la producción promedio durante diferentes meses. Han sido computadas usando datos de diferentes años. ¿Cierto? ¿Se conocen las desviaciones estándar (por ejemplo, porque se calcularon a partir de un modelo teórico) o se estimaron usando los mismos datos que se usaron para las medias?
0 votos
¿Tienes los datos originales con, por ejemplo, observaciones diarias?
0 votos
@MånsT Tengo los datos originales - observaciones de 10 minutos. La razón por la que estoy trabajando con promedios mensuales es para mantener la capacidad de respuesta del software. La desviación estándar se calcula por el momento utilizando la función STDDEV de MySQL, eventualmente se calculará directamente en Java.
0 votos
@whuber Punto interesante en requerir el número de observaciones como parámetro para la fórmula. ¿Es razonable querer al menos leer respuestas (erróneas) antes de su eliminación? (Una discusión para meta quizás)
3 votos
Sí, klonq, esa es una solicitud muy razonable. Sin embargo, estas respuestas fueron eliminadas por su dueño, no por la comunidad. Para preservar su valor, he intentado aquí transmitir (mi opinión sobre) las ideas clave que surgieron en esas respuestas y sus comentarios. Por cierto, tus ediciones recientes son bastante útiles: a la gente le gusta ver ejemplos de datos.
1 votos
Seguramente promediar la varianza y calcular así la desviación estándar promedio no puede ser toda la respuesta! Todo esto solo representa la varianza promedio en la medición de la potencia de salida DENTRO de un solo mes. Este es un buen comienzo para obtener una medida precisa del error de medición, pero ¿no es necesario combinar de alguna manera esta desviación estándar de 232 con la variación INTERMENSUAL en la potencia de salida? es decir, creo que la desviación estándar resultante para la Gran Media debería ser un poco mayor que 232 si se tiene en cuenta el error combinado en la medición tanto dentro de cada mes como entre.
0 votos
Que la desviación estándar para la variación entre meses sería de 148 usando los 12 promedios mensuales y luego esto se podría sumar a la raíz cuadrada de la desviación estándar de 232 para dentro de los meses? QUIZÁS - no lo sé.
1 votos
Bienvenido al sitio, @Hayden. Esto no es una respuesta a la pregunta del OP. Por favor, utiliza solo el campo "Tu respuesta" para proporcionar respuestas. Si tienes una pregunta de seguimiento, haz clic en
[HACER UNA PREGUNTA]
en la parte superior y hazla ahí, entonces podemos ayudarte adecuadamente. Ya que eres nuevo aquí, es posible que desees hacer nuestro tour, que contiene información para nuevos usuarios.