38 votos

Cómo calcular agrupadas de varianza de dos grupos dado el conocido grupo de las variaciones, los medios, y los tamaños de muestra?

Decir que hay un $m+n$ elementos divididos en dos grupos ( $m$ $n$ ). La varianza del primer grupo es $\sigma_m^2$ y la varianza del segundo grupo es el de $\sigma^2_n$. Los elementos en sí, se supone que para ser desconocida, pero sé que los medios $\mu_m$, $\mu_n$ y $\mu_{(m+n)}$. La varianza no tiene que ser imparcial, de modo que el denominador es $(m+n)$ e no $(m+n-1)$.

Es allí una manera de calcular el combinado de la varianza $\sigma^2_{(m+n)}$?

43voto

jldugger Puntos 7490

El uso de las definiciones de la media

$$\mu_{1:n} = \frac{1}{n}\sum_{i=1}^n x_i$$

y la varianza de la muestra

$$\sigma_{1:n}^2 = \frac{1}{n}\sum_{i=1}^n \left(x_i - \mu_{1:n}\right)^2 = \frac{n-1}{n}\left(\frac{1}{n-1}\sum_{i=1}^n \left(x_i - \mu_{1:n}\right)^2\right)$$

(el último término entre paréntesis es el insesgada de la varianza del estimador de frecuencia calculada por defecto en el software de estadística) para encontrar la suma de los cuadrados de todos los datos de $x_i$. Vamos a la orden de los índices de $i$, de modo que $i=1,\ldots,n$ designa a los elementos del primer grupo y $i=n+1,\ldots,n+m$ designa a los elementos del segundo grupo. Romper esa suma de plazas por grupo y re-expresar las dos piezas en términos de las desviaciones y los medios de los subconjuntos de los datos:

$$\eqalign{ (m+n)(\sigma^2_{1:m+n} + \mu_{1:m+n}^2) &= \sum_{i=1}^{1:n+m} x_i^2 \\ &= \sum_{i=1}^n x_i^2 + \sum_{i=n+1}^{n+m} x_i^2 \\ y= n(\sigma^2_{1:n} + \mu_{1:n}^2) + m(\sigma^2_{1+n:m+n} + \mu_{1+n:m+n}^2). }$$

Algebraicamente la solución de este para $\sigma^2_{m+n}$ en términos de la otra (conocida) las cantidades de los rendimientos

$$\sigma^2_{1:m+n} = \frac{n(\sigma^2_{1:n} + \mu_{1:n}^2) + m(\sigma^2_{1+n:m+n} + \mu_{1+n:m+n}^2)}{m+n} - \mu^2_{1:m+n}.$$

Por supuesto, con el mismo enfoque, $\mu_{1:m+n} = (n\mu_{1:n} + m\mu_{1+n:m+n})/(m+n)$ puede ser expresada en términos de las medias de los grupos, también.


Un anónimo colaborador señala que cuando la muestra significa que son iguales (para que $\mu_{1:n}=\mu_{1+n:m+n}=\mu_{1:m+n}$), la solución para $\sigma^2_{m+n}$ es una media ponderada del grupo de la muestra desviaciones.

-4voto

Vijay Puntos 182

Sí, dado que la media, el número de muestras, y la varianza o la desviación estándar de cada uno de los dos o más grupos de muestras, exactamente se puede calcular la varianza o la desviación estándar del grupo combinado.

Esta página web se describe cómo hacerlo, y por qué funciona, y eso también incluye el código fuente de Perl: http://www.burtonsys.com/climate/composite_standard_deviations.html


Por CIERTO, contrario a la respuesta dada anteriormente,

$$\eqalign{ n(\sigma^2 + \mu^2) \espacio espacio\\ne \espacio espacio\\sum_{i=1}^n x_i^2 }$$

Vea por usted mismo, por ejemplo, en R:

> x = rnorm(10,5,2)
> x
 [1] 6.515139 8.273285 2.879483 3.624233 6.199610 3.683164 4.921028 8.084591
 [9] 2.974520 6.049962
> mean(x)
[1] 5.320502
> sd(x)
[1] 2.007519
> sum(x**2)
[1] 319.3486
> 10 * (mean(x)**2 + sd(x)**2)
[1] 323.3787

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X