1 votos

¿por qué algunas varianzas agrupadas tienen "media" y otras sólo utilizan la suma directa sin la media?

Diga $X,Y$ son dos variables aleatorias. Veo cursos que dicen $X+Y$ y $X-Y$ , cada uno tiene una varianza de $\sigma_x^2 + \sigma_y^2.$

Pero, por otro lado, también veo cursos que hablan de para $X$ y $Y,$ su varianza conjunta es $(\sigma_x^2 + \sigma_y^2)/2,$ asumiendo 1) que tienen la misma varianza poblacional; 2) el mismo tamaño de muestra para cada uno, por lo que las mismas ponderaciones; 3) ignorar la pequeña diferencia en los grados de libertad (es decir, ignorar la $-1).$

Ahora mi pregunta es por qué se dice que la varianza es $\sigma_x^2 + \sigma_y^2$ mientras que el otro toma una media: $(\sigma_x^2 + \sigma_y^2)/2?$

¿cuál es la correcta o quizás ambas son correctas pero para diferentes casos de uso?

0voto

manku Puntos 111

Para las variables aleatorias: Si $X$ y $Y$ son independiente variables aleatorias entonces $$Var(X+Y)=Var(X)+Var(Y).$$

Ejemplo: Supongamos que A lanza una moneda justa $n_1 = 12$ veces y obtiene $X$ cabezas, entonces $X \sim \mathsf{Binom}(12, 0.5),$ que tiene un medio $\mu_1 = E(X) = n_1p = n_1(.5) = 6$ y la varianza $\sigma_1 = n_1p(1-p) = (12)(1/4) = 3.$

Además, supongamos que, independientemente, B lanza una moneda justa $n_2 = 16$ veces y obtiene $Y$ cabezas con $\mu_2 = 8, \sigma_2 = 4.$

Entonces el número de cabezas de A y B juntas tiene la distribución $\mathsf{Binom}(28, .5)$ con la media $\mu = \mu_1+\mu_2 = 6 + 8 = 14$ y la varianza $\sigma = \sigma_1^2+\sigma_2^2 = 3 + 4 = 7$ que también es $\mu = 28(.5) = 14$ y $\sigma^2 = 28(.5)(.5) = 28/4 = 7.$

Para los datos: Si x es una muestra de $n_1$ observaciones de una población con varianza $^2$ y y es una muestra independiente de tamaño $n-2$ de una población con varianza $^2,$ entonces la estimación conjunta de $^2$ es

$$\frac{(n_11)S_1^2+(n_21)S_2^2}{n_1+n_22},$$ donde $S_1^2,S_2^2$ son las varianzas de la muestra.

En caso de que $n_1=n_2,$ esto se simplifica a $\frac{S_1^2+S_2^2}{2}.$

Ejemplo: Supongamos que tiene una muestra x de tamaño $n_1 = 25$ de la población A, con la media muestral $\bar X = 28.3$ y la varianza de la muestra $S_x^2 = 17.21$ (desviación estándar de la muestra $S_y = 4.148.)$

Además, tiene una muestra y de tamaño $n_1 = 25$ de la población B, con la media muestral $\bar Y = 35.7$ y la variante de la muestra $S_y^2 = 18.08$ (desviación estándar de la muestra $S_y = 4.252.)$

Si sabe que ambas poblaciones son normales, entonces podría hacer una prueba t de 2 muestras combinadas de $H_0: \mu_x = \mu_y$ contra $H_a: \mu_x \ne \mu_y.$

Entonces, el estadístico de prueba apropiado es $T = \frac{\bar X - \bar Y}{S_p\sqrt{\frac{1}{15}+\frac{1}{25}}}.$

Si introducimos los tamaños de las muestras, las medias de las muestras y las desviaciones estándar de las muestras en el software estadístico Minitab, obtendremos lo siguiente salida para la prueba t de 2 muestras agrupadas:

Two-Sample T-Test and CI 

Sample   N   Mean  StDev  SE Mean
1       25  28.30   4.15     0.83
2       25  35.70   4.25     0.85

 Difference =  (1) -  (2)
 Estimate for difference:  -7.40
 95% CI for difference:  (-9.79, -5.01)

 T-Test of difference = 0 (vs ): 
  T-Value = -6.23  P-Value = 0.000  DF = 48
  Both use Pooled StDev = 4.2003

A continuación, la desviación estándar agrupada $S_p$ usado tanto para el intervalo de confianza como para el estadístico t es $$S_p = \sqrt{S_p^2}= \sqrt{\frac{S_1^2+S_2^2}{2}}.$$ desde arriba.

Entonces $$S_p^2 = \frac{S_1^2 + S_2^2}{2} = \frac{17.21+18.08}{2} = \frac{15.29}{2} = 17.645.$$ Así que $S_p = 4.200595$ que coincide con el salida de Minitab, excepto por el redondeo utilizado en la salida.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X