100 votos

¿Cómo 'sumar' una desviación estándar?

Tengo un promedio mensual para un valor y una desviación estándar correspondiente a ese promedio. Ahora estoy calculando el promedio anual como la suma de los promedios mensuales, ¿cómo puedo representar la desviación estándar para el promedio sumado?

Por ejemplo, considerando la producción de energía de un parque eólico:

Mes          MWh    StdDev
Enero        927    333 
Febrero      1234   250
Marzo        1032   301
Abril        876    204
Mayo         865    165
Junio        750    263
Julio        780    280
Agosto       690    98
Septiembre   730    76
Octubre      821    240
Noviembre    803    178
Diciembre    850    250

Podemos decir que en promedio el parque eólico produce 10,358 MWh al año, pero ¿cuál es la desviación estándar correspondiente a esta cifra?

7 votos

Una discusión siguiente a una respuesta ahora eliminada señaló una posible ambigüedad en esta pregunta: ¿buscas la desviación estándar de los promedios mensuales o quieres recuperar la desviación estándar de todos los valores originales de los que se construyeron esos promedios? Esa respuesta también señaló correctamente que si quieres lo último, necesitarás los números de valores involucrados en cada uno de los promedios mensuales.

2 votos

Un comentario a otra respuesta eliminada señaló que es extraño calcular un promedio como una suma: seguramente significa que estás promediando los promedios mensuales. Pero si lo que deseas es estimar el promedio de todos los datos originales, entonces tal procedimiento no suele ser bueno: se necesita un promedio ponderado. Y por supuesto no es posible dar una buena respuesta a tu pregunta sobre la "DE para el promedio sumado" hasta que esté claro qué es el "promedio sumado" y qué se pretende que represente. Por favor acláralo para nosotros.

1 votos

@whuber he añadido un ejemplo para aclarar. Matemáticamente creo que la suma de promedios es igual al promedio mensual multiplicado por 12.

90voto

Mun Puntos 6844

Respuesta Corta

Se promedian las varianzas; luego se puede tomar la raíz cuadrada para obtener la desviación estándar promedio.

Por ejemplo:

╔═══════════╦════════╤════════╤══════════╗
║ Mes       ║    MWh │ StdDev │ Varianza ║
╠═══════════╬════════╪════════╪══════════╣
║ Enero     ║    927 │    333 │  110,889 ║
║ Febrero   ║  1,234 │    250 │   62,500 ║
║ Marzo     ║  1,032 │    301 │   90,601 ║
║ Abril     ║    876 │    204 │   41,616 ║
║ Mayo      ║    865 │    165 │   27,225 ║
║ Junio     ║    750 │    263 │   69,169 ║
║ Julio     ║    780 │    280 │   78,400 ║
║ Agosto    ║    690 │     98 │    9,604 ║
║ Septiembre║    730 │     76 │    5,776 ║
║ Octubre   ║    821 │    240 │   57,600 ║
║ Noviembre  ║    803 │    178 │   31,684 ║
║ Diciembre  ║    850 │    250 │   62,500 ║
╠═══════════╬════════╪════════╪══════════╣
║ Total     ║ 10,358 │    805 │  647,564 ║
║ ÷12       ║    863 │    232 │   53,964 ║
╚═══════════╩════════╧════════╧══════════╝

Y luego la desviación estándar promedio es sqrt(53,964) = 232

Respuesta Larga

De Suma de variables aleatorias normales:

Si $X$ e $Y$ son variables aleatorias independientes que están distribuidas normalmente (y por lo tanto también conjuntamente), entonces su suma también está distribuida normalmente

...la suma de dos variables aleatorias normalmente distribuidas independientes es normal, con su media siendo la suma de las dos medias, y su varianza siendo la suma de las dos varianzas

Y desde la Distribución de la Suma Normal de Wolfram Alpha:

Asombrosamente, la distribución de la suma de dos variables $X$ e $Y$ que son independientes y están normalmente distribuidas con medias y varianzas $(\mu_X,\sigma_X^2)$ y $(\mu_Y,\sigma_Y^2)$, respectivamente es otra distribución normal

$$ P_{X+Y}(u) = \frac{1}{\sqrt{2\pi (\sigma_X^2 + \sigma_Y^2)}} e^{-[u-(\mu_X+\mu_Y)]^2/[2(\sigma_X^2 + \sigma_Y^2)]} $$

la cual tiene media

$$\mu_{X+Y} = \mu_X+\mu_Y$$

y varianza

$$ \sigma_{X+Y}^2 = \sigma_X^2 + \sigma_Y^2$$

Para tus datos:

  • suma: 10,358 MWh
  • varianza: 647,564
  • desviación estándar: 804.71 (es decir, sqrt(647,564))

descripcion de la imagen

Entonces, para responder a tu pregunta:

  • ¿Cómo 'sumar' una desviación estándar?

  • Se suman cuadráticamente:

      s = sqrt(s1^2 + s2^2 + ... + s12^2)

Conceptualmente se suman las varianzas, luego se toma la raíz cuadrada para obtener la desviación estándar.


Porque estaba curiosamente interesado, quise saber el promedio mensual medio de la potencia, y su desviación estándar. A través de la inducción, necesitamos 12 distribuciones normales que:

  • sumen una media de 10,358
  • sumen una varianza de 647,564

Eso serían 12 distribuciones mensuales promedio de:

  • media de 10,358/12 = 863.16
  • varianza de 647,564/12 = 53,963.6
  • desviación estándar de sqrt(53963.6) = 232.3

descripcion de la imagen

Podemos verificar nuestras distribuciones mensuales promedio sumándolas 12 veces, para ver que son iguales a la distribución anual:

  • Media: 863.16*12 = 10358 = 10,358 (correcto)
  • Varianza: 53963.6*12 = 647564 = 647,564 (correcto)

Nota: dejaré que alguien con conocimientos del matemáticas Latex esotéricas convierta mis imágenes de fórmulas y código de fórmula en fórmulas formateadas para StackExchange.

Editar: Moví la respuesta corta y al punto arriba. Porque necesitaba hacer esto de nuevo hoy, pero quería verificar que promedio las varianzas.

4 votos

Todo esto parece suponer que los meses no están correlacionados, ¿has hecho esa suposición explícita en alguna parte? Además, ¿por qué necesitamos traer en la distribución normal? Si solo estamos hablando de varianza, parece innecesario. Por ejemplo, consulta mi respuesta aquí.

1 votos

@Marco Porque creo que es mejor pensar en imágenes y hace que todo sea más fácil de entender.

2 votos

@Marco Además, creo que esta pregunta comenzó en el sitio (ahora desaparecido) de stats.stackexchange. Una pared de fórmulas es menos accesible que tratamientos más simples, gráficos y menos rigurosos.

27voto

AMH Puntos 16

Esta es una pregunta antigua pero la respuesta aceptada es incorrecta o al menos incompleta. El usuario quiere calcular la desviación estándar sobre datos de 12 meses donde la media y la desviación estándar ya están calculadas para cada mes. Suponiendo que el número de muestras en cada mes es el mismo, entonces es posible calcular la media y la varianza de la muestra durante el año a partir de los datos de cada mes. Para simplificar, supongamos que tenemos dos conjuntos de datos:

$X=\{x_1,....x_N\}$

$Y=\{y_1,....,y_N\}$

con valores conocidos de la media de la muestra y la varianza de la muestra, $\mu_x$, $\mu_y$, $\sigma^2_x$, $\sigma^2_y$.

Ahora queremos calcular los mismos estimados para

$Z=\{x_1,....,x_N, y_1,...,y_N\}$

Tenga en cuenta que $\mu_x$, $\sigma^2_x$ se calculan de la siguiente manera:

$\mu_x = \frac{\sum^N_{i=1} x_i}{N}$

$\sigma^2_x = \frac{\sum^N_{i=1} x^2_i}{N}-\mu^2_x$

Para estimar la media y varianza sobre el conjunto total necesitamos calcular:

$\mu_z = \frac{\sum^N_{i=1} x_i +\sum^N_{i=1} y_i }{2N}= (\mu_x+\mu_y)/2$ que se encuentra en la respuesta aceptada. Sin embargo, la historia es diferente para la varianza:

$\sigma^2_z = \frac{\sum^N_{i=1} x^2_i +\sum^N_{i=1} y^2_i }{2N}-\mu^2_z$

$\sigma^2_z = \frac{1 }{2}(\frac{\sum^N_{i=1} x^2_i}{N}-\mu^2_x + \frac{\sum^N_{i=1} y^2_i}{N}-\mu^2_y )+\frac{1 }{2}(\mu^2_x+\mu^2_y) -(\frac{\mu_x+\mu_y}{2})^2$

$\sigma^2_z = \frac{1 }{2}(\sigma^2_x+\sigma^2_y )+(\frac{\mu_x-\mu_y}{2})^2$

Entonces, si tiene la varianza sobre cada subconjunto y desea la varianza sobre todo el conjunto, puede promediar las varianzas de cada subconjunto si todas tienen la misma media. De lo contrario, necesita agregar la varianza de la media de cada subconjunto.

Como ejemplo, suponga que durante la primera mitad del año producimos exactamente 1000 MWh por día y en la segunda mitad producimos 2000 MWh por día. Entonces la media y varianza de la producción de energía en la primera y segunda mitad son 1000 y 2000 para la media y 0 para la varianza de cada semestre. Ahora queremos calcular la varianza de la producción de energía durante todo el año. Si promediamos las dos varianzas llegamos a cero, lo cual no es correcto ya que la energía por día durante todo el año no es constante. Por lo tanto, necesitamos agregar la varianza de todas las medias de cada subconjunto.

Esto tiene una conexión cercana con la ley de varianza total. ingresa aquí para más información.

$$\operatorname{Var}(Y) = \operatorname{E}[\operatorname{Var}(Y \mid X)] + \operatorname{Var}(\operatorname{E}[Y \mid X])$$

Para usar el teorema anterior en este caso, podemos interpretar la variable de condicionamiento X como que Y pertenece al grupo $X_i$. En el contexto de la pregunta original, X es la variable aleatoria que indica el mes del año y Y es la producción de energía por día.

1 votos

Respuesta agradable. En mi opinión, cómo calcularlo depende de cómo quieras presentar la desviación estándar resultante (y qué hipótesis quieras abordar usando esta DE, si estás tratando de comparar con otra granja eólica, etc.).

0 votos

¿Querías decir "varianza de población" y no "varianza de muestra", ¿verdad? La varianza de muestra tiene ese molesto N-1 en su definición.

0 votos

¡Buena respuesta! En caso de que el número de muestras en cada subconjunto no sea el mismo y sus promedios tampoco sean los mismos, ¿se vería la fórmula así?: $\frac{(n_1-1) \sigma_1^2 + ... + (n_k-1) \sigma_k^2}{n_1+...+n_k -k} + (\frac{\mu_1-...-\mu_k}{n_1+...+n_k})^2$

12voto

Rahul Gutal Puntos 14

En resumen

Dados varios días, y para cada día se nos da su Promedio, Desviación Estándar de la Muestra y número de Muestras, denominados como: $$ \mu_d,\ \sigma_d,\ N_d $$ Quisiéramos calcular el Promedio y la Desviación Estándar de la Muestra en todos los días.

El Promedio es simplemente un promedio ponderado: $$ \mu = \frac{\sum{\mu_dN_d}}{\sum{N_d}} = \frac{\sum{\mu_dN_d}}{N} $$

La Desviación Estándar de la Muestra es esta cosa: $$ \sigma=\sqrt{\frac{\sum_{d}{(\sigma_d^2(N_d-1)+N_d(\mu-\mu_d)^2})}{N-1}} $$ Donde el subíndice d denota un día en el que recopilamos el Promedio, Desviación Estándar de la Muestra y número de Muestras.

Detalles

Hemos tenido un problema similar en el cual teníamos un proceso que calculaba un Promedio diario y una Desviación Estándar de la Muestra y lo guardaba junto con el número de muestras diarias. Utilizando esta entrada teníamos que calcular un Promedio y una Desviación Estándar semanal / mensual. El número de muestras por día no era constante en nuestro caso.

Denotemos el Promedio, Desviación Estándar de la Muestra y Número de Muestras del conjunto entero como: $$ \mu,\ \sigma\ y\ N\ $$ Y para el día d denominemos el Promedio, Desviación Estándar de la Muestra y Número de Muestras como: $$ \mu_d,\ \sigma_d,\ N_d $$ Calcular el Promedio del conjunto entero es simplemente un Promedio Ponderado de los Promedios de los días en cuestión: $$ \mu = \frac{\sum{\mu_dN_d}}{\sum{N_d}} = \frac{\sum{\mu_dN_d}}{N} $$ Pero las cosas son mucho más complicadas al considerar la Desviación Estándar de la Muestra. Para la Desviación Estándar de la Muestra de un día tenemos: $$ \sigma_d=\sqrt{\frac{\sum_{N_d}(x_j-\mu_d)^2}{N_d-1}} $$ Primero un poco de limpieza: $$ \sigma_d^2(N_d-1)=\sum_{N_d}(x_j-\mu_d)^2 $$ Veamos el término del lado derecho de la ecuación anterior. Si podemos llegar de esta suma a la siguiente suma por día: $$ \sum_{N_d}{(x_j-\mu)^2} $$ entonces la suma sobre los días nos dará lo que estamos buscando ya que los días son disjuntos y cubren todo el conjunto: $$ \sum_{d}{\sum_{N_d}{(x_j-\mu)^2}} = \sum_{N}{(x_j-\mu)^2} $$ La idea que se obtiene de la Desviación Estándar diaria a la Desviación Estándar del conjunto entero es darse cuenta de que mientras no tenemos las muestras diarias, sí tenemos la suma de las muestras diarias a través del Promedio diario. Dada esta idea vamos a trabajar en el término del lado derecho de la ecuación anterior: $$ \sum_{N_d}(x_j-\mu_d)^2=\sum_{N_d}{(x_j^2-2x_j\mu_d+\mu_d^2)}=\\ =\sum_{N_d}{(x_j^2-2x_j\mu_d+\mu_d^2)}+(\sum_{N_d}{\mu^2}-\sum_{N_d}{\mu^2})+(2\sum_{N_d}{x_j(\mu-\mu_d})-2\sum_{N_d}{x_j(\mu-\mu_d})) $$ En este punto no hicimos nada más que sumar y restar términos que se anulan manteniendo la ecuación igual. Ahora, como sumamos sobre Nd en todas las sumas, reescribamos las sumas por diversión y beneficio: $$ \require{cancel} =\sum_{N_d}{(x_j^2-2x_j(\cancel{\mu_d}+\mu-\cancel{\mu_d})+\mu^2)}+\sum_{N_d}{\mu_d^2}-\sum_{N_d}{\mu^2}+2\sum_{N_d}{x_j(\mu-\mu_d)} $$ Las sumatorias son sobre j por lo que los términos de la suma que no dependen de j pueden ser simplemente multiplicados por Nd: $$ =\sum_{N_d}{(x_j^2-2x_j\mu+\mu^2)}+N_d\mu_d^2-N_d\mu^2+2\sum_{N_d}{x_j(\mu-\mu_d)} $$ Y estamos cerca: $$ =\sum_{N_d}{(x_j-\mu)^2}+N_d\mu_d^2-N_d\mu^2+2\sum_{N_d}{x_j(\mu-\mu_d)} $$ Ahora manejemos el término más a la derecha ya que no podemos usar xj directamente pero podemos usar su suma ya que tenemos el Promedio de ese día. Simplemente multiplicamos y dividimos por Nd para obtener el Promedio: $$ =\sum_{N_d}{(x_j-\mu)^2}+N_d\mu_d^2-N_d\mu^2+2(\mu-\mu_d){N_d}(\frac{1}{N_d}\sum_{N_d}{x_j})\\ =\sum_{N_d}{(x_j-\mu)^2}+N_d\mu_d^2-N_d\mu^2+2(\mu-\mu_d){N_d}\mu_d $$ En este punto tenemos la suma que necesitamos para calcular la Desviación Estándar de la Muestra del conjunto entero y el resto de los términos son cantidades que conocemos, es decir, las estadísticas del día y el número de muestras. Volvamos a enchufarlo en el paso de limpieza anterior: $$ \sigma_d^2(N_d-1)=\sum_{N_d}{(x_j-\mu)^2}+N_d\mu_d^2-N_d\mu^2+2(\mu-\mu_d){N_d}\mu_d\\ \leftrightarrow\ \sigma_d^2(N_d-1)-N_d\mu_d^2+N_d\mu^2-2N_d\mu_d(\mu-\mu_d)=\sum_{N_d}{(x_j-\mu)^2}\\ \leftrightarrow\ \sigma_d^2(N_d-1)+N_d(\mu-\mu_d)^2=\sum_{N_d}{(x_j-\mu)^2} $$ Ahora estamos listos para calcular la Desviación Estándar de la Muestra del conjunto: $$ \sigma=\sqrt{\frac{\sum_{N}(x_j-\mu)^2}{N-1}}\\ =\sqrt{\frac{\sum_{d}{\sum_{N_d}(x_j-\mu)^2}}{N-1}}\\ =\sqrt{\frac{\sum_{d}{(\sigma_d^2(N_d-1)+N_d(\mu-\mu_d)^2})}{N-1}} $$

0 votos

Su notación es un poco confusa para mí, ya que no aclara cuáles son los parámetros conocidos (asumidos) y cuáles son las estimaciones de la muestra.

2 votos

Conocidos son Nd, Mu-d, Sigma-d, necesitamos calcular N, Mu, Sigma. Calcular N y Mu es trivial, Sigma es la complicada..

0 votos

Gracias. La observación clave es que el número de muestras difiere de stda a stdb. La mayoría de las otras respuestas ignoran eso...

8voto

Adeel Akram Puntos 16

Me gustaría volver a enfatizar la incorrección en parte de la respuesta aceptada. La redacción de la pregunta llevó a confusión.

La pregunta tiene el Promedio y la Desviación Estándar de cada mes, pero no está claro qué tipo de subconjunto se está utilizando. ¿Es el promedio de 1 turbina eólica de toda la granja o el promedio diario de toda la granja? Si es el promedio diario para cada mes, no puedes sumar el promedio mensual para obtener el promedio anual porque no tienen el mismo denominador. Si es el promedio por unidad, la pregunta debería indicar

Podemos decir que en un año promedio cada turbina en la granja eólica produce 10,358 MWh...

En lugar de

Podemos decir que en un año promedio la granja eólica produce 10,358 MWh...

Además, La desviación estándar o la varianza es la comparación con el promedio del conjunto. NO contiene ninguna información sobre el promedio de su conjunto padre (el conjunto más grande del cual el conjunto calculado es un componente).

Respuesta corta: Promedias las varianzas; luego puedes sacar la raíz cuadrada para obtener la desviación estándar promedio.

Esto es incorrecto. Puedes hacer operaciones matemáticas normales con promedios (sin incluir los datos de los elementos) porque comparten denominadores comunes. NO es el caso con la varianza ni la desviación estándar

Visualización de la varianza

La imagen no es necesariamente muy precisa, pero transmite la idea general. Imaginemos la producción de una granja eólica como en la imagen. Como puedes ver, la varianza "local" no tiene nada que ver con la varianza "global", no importa cómo sumes o multipliques esos valores. Si sumas las varianzas "locales" juntas, será muy pequeña en comparación con la varianza "global". No puedes predecir la varianza del año utilizando la varianza de 2 medios años. Por lo tanto, en la respuesta aceptada, aunque el cálculo de la suma es correcto, la división por 12 para obtener el número mensual no significa nada.. De las tres secciones, la primera y la última secciones son incorrectas, la segunda es correcta.

Nuevamente, es una aplicación muy incorrecta, por favor no la sigas o te metirá en problemas. Solo calcula para todo el conjunto, usando la producción total anual/mensual de cada unidad como puntos de datos dependiendo de si deseas el número anual o mensual, esa debería ser la respuesta correcta. Probablemente quieres algo como esto. Estos son números generados al azar por mí. Si tienes los datos, el resultado en la celda O2 debería ser tu respuesta.

Ingresa la descripción de la imagen aquí

0 votos

Gracias por la imagen que me ayudó mucho a entender por qué la respuesta aceptada está incompleta y puede ser incluso incorrecta. Lo explicaste muy bien, ¡gracias!

2 votos

Esto muestra el peligro de votar. Las personas que votan son las personas que no conocen la respuesta. A diferencia de programar, las personas que votan son las que hacen que el código funcione, cuantos más votos, mejor la respuesta. Para estadísticas / matemáticas, más votos solo significan que es más atractivo.

1voto

Matteo Puntos 101

Creo que lo que realmente te interesa es el error estándar en lugar de la desviación estándar.

El error estándar de la media (SEM) es la desviación estándar de la estimación de la media de la muestra de una población, y eso te dará una medida de qué tan buena es tu estimación anual de MWh.

Es muy fácil de calcular: si utilizaste $n$ muestras para obtener tus promedios mensuales de MWh y desviaciones estándar, simplemente calcularías la desviación estándar como sugirió @IanBoyd y la normalizarías por el tamaño total de tu muestra. Es decir,
$$ s = \frac{\sqrt{s_1^2 + s_2^2 + \ldots + s_{12}^2}}{\sqrt{12 \times n}} $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X