6 votos

¿Por qué calculamos las desviaciones típicas agrupadas utilizando las varianzas?

¿Por qué calculamos la desviación típica agrupada promediando las varianzas y sacando la raíz cuadrada, en lugar de promediar las desviaciones típicas directamente?

Edición: esto surgió en el contexto de la creación de un tamaño del efecto para una prueba t de muestras emparejadas, pero si la respuesta varía a través de los contextos estoy interesado en aprender sobre eso también.

6voto

AdamSane Puntos 1825

Trabajamos con varianzas en lugar de desviaciones estándar porque las varianzas tienen propiedades especiales.

En particular, las varianzas de las sumas y diferencias de las variables tienen una forma sencilla Y si las variables son independientes, el resultado es aún más sencillo.

Es decir, si dos variables son independientes, la varianza de la diferencia es la suma de las varianzas ("las varianzas se suman", pero las desviaciones estándar no).

Específicamente, en digamos una prueba t de dos muestras, estamos tratando de encontrar la desviación estándar de la diferencia en las medias de las muestras . Podemos utilizar las propiedades básicas de la varianza (enlazadas anteriormente) para ver que la varianza de las medias muestrales individuales es $\sigma^2/n$ que podemos estimar mediante $s^2/n$ para cada muestra.

Ahora que tenemos la varianza de cada una de las medias, podemos utilizar el resultado de la "suma de varianzas" para obtener que la varianza de la diferencia de las medias es la suma de las dos varianzas de las medias muestrales. Así que la desviación estándar de la distribución de la diferencia de medias (la error estándar de la diferencia de medias ) es la raíz cuadrada de esa suma.

Esto funciona directamente para la prueba t de Welch, donde estimamos $\text{Var}(\bar{X}-\bar{Y})$ por $s_x^2/n_x+s_y^2/n_y$ . La versión de igual varianza funciona con la misma idea, pero como se supone que las varianzas son idénticas, se obtiene una única estimación global de $\sigma^2$ de ambas muestras. Es decir, sumamos sumamos todas las desviaciones al cuadrado de la media del grupo correspondiente antes de dividirlas por la f.d. total de los dos grupos (cada uno pierde 1 f.d. porque medimos las desviaciones de las medias individuales de los grupos). Esto corresponde a una forma de media ponderada de las varianzas individuales $s^2_p=w_xs^2_x+w_ys^2_y$ donde $w_x=\text{df}_x/(\text{df}_x+\text{df}_y)$ . Entonces esa única estimación de la varianza agrupada $s^2_p$ se utiliza en una estimación de la varianza de la diferencia de medias. Dado que $\text{Var}(\bar{X})=\sigma^2/n_x$ y $\text{Var}(\bar{Y})=\sigma^2/n_y$ la varianza de la suma es la suma de las varianzas, por lo que $\text{Var}(\bar{X}-\bar{Y})=\sigma^2/n_x+\sigma^2/n_y$ que, de nuevo, estimamos sustituyendo $\sigma^2$ por la estimación $s^2_p$ .

En cualquier caso, podemos estandarizar nuestra diferencia de medias dividiendo por la correspondiente estimación del error estándar. En ambos casos, el denominador del $t$ -Estadística viene de.

En otros casos se obtienen resultados similares.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X