Trabajamos con varianzas en lugar de desviaciones estándar porque las varianzas tienen propiedades especiales.
En particular, las varianzas de las sumas y diferencias de las variables tienen una forma sencilla Y si las variables son independientes, el resultado es aún más sencillo.
Es decir, si dos variables son independientes, la varianza de la diferencia es la suma de las varianzas ("las varianzas se suman", pero las desviaciones estándar no).
Específicamente, en digamos una prueba t de dos muestras, estamos tratando de encontrar la desviación estándar de la diferencia en las medias de las muestras . Podemos utilizar las propiedades básicas de la varianza (enlazadas anteriormente) para ver que la varianza de las medias muestrales individuales es $\sigma^2/n$ que podemos estimar mediante $s^2/n$ para cada muestra.
Ahora que tenemos la varianza de cada una de las medias, podemos utilizar el resultado de la "suma de varianzas" para obtener que la varianza de la diferencia de las medias es la suma de las dos varianzas de las medias muestrales. Así que la desviación estándar de la distribución de la diferencia de medias (la error estándar de la diferencia de medias ) es la raíz cuadrada de esa suma.
Esto funciona directamente para la prueba t de Welch, donde estimamos $\text{Var}(\bar{X}-\bar{Y})$ por $s_x^2/n_x+s_y^2/n_y$ . La versión de igual varianza funciona con la misma idea, pero como se supone que las varianzas son idénticas, se obtiene una única estimación global de $\sigma^2$ de ambas muestras. Es decir, sumamos sumamos todas las desviaciones al cuadrado de la media del grupo correspondiente antes de dividirlas por la f.d. total de los dos grupos (cada uno pierde 1 f.d. porque medimos las desviaciones de las medias individuales de los grupos). Esto corresponde a una forma de media ponderada de las varianzas individuales $s^2_p=w_xs^2_x+w_ys^2_y$ donde $w_x=\text{df}_x/(\text{df}_x+\text{df}_y)$ . Entonces esa única estimación de la varianza agrupada $s^2_p$ se utiliza en una estimación de la varianza de la diferencia de medias. Dado que $\text{Var}(\bar{X})=\sigma^2/n_x$ y $\text{Var}(\bar{Y})=\sigma^2/n_y$ la varianza de la suma es la suma de las varianzas, por lo que $\text{Var}(\bar{X}-\bar{Y})=\sigma^2/n_x+\sigma^2/n_y$ que, de nuevo, estimamos sustituyendo $\sigma^2$ por la estimación $s^2_p$ .
En cualquier caso, podemos estandarizar nuestra diferencia de medias dividiendo por la correspondiente estimación del error estándar. En ambos casos, el denominador del $t$ -Estadística viene de.
En otros casos se obtienen resultados similares.