6 votos

¿Cómo comprender intuitivamente la fórmula para la estimación de la varianza agrupada cuando se prueban las diferencias entre las medias del grupo?

Supongamos que quiero comparar la diferencia entre las medias de las muestras seleccionadas de dos poblaciones (el tratamiento y el control). Supongamos que ambos grupos tienen observaciones normalmente distribuidas. Entonces $$Z = \frac {( \bar {X}_{t}- \bar {X}_{c})-( \mu_ {t}- \mu_ {c})}{ \sqrt { \left ( \frac { \sigma ^{2}_{t}}{n_t}+ \frac { \sigma ^{2}_{c}}{n_c} \right )}}$$

Supongamos que $ \sigma_ {t}^{2}$ y $ \sigma_ {c}^{2}$ son desconocidas pero se puede suponer que son iguales a $ \sigma ^2$ . ¿Por qué la estimación conjunta $S_{p}^{2}$ para $ \sigma ^2$ igual a $$S_{p}^{2} = \frac {S_{t}^{2}(n_{t}-1)+ S_{c}^{2}(n_{c}-1)}{[n_t+n_c-2]}$$ donde $S_{t}^2$ y $S_{c}^2$ son las estimaciones de las muestras de los grupos de tratamiento y control. Sé que esto tiene algo que ver con los grados de libertad. Pero nunca pude realmente "tantear" su definición.

En resumen, ¿cómo obtenemos la estimación conjunta y cuáles son los grados de libertad intuitivos?

8voto

Eero Puntos 1612

En realidad, aquí hay 2 preguntas, una sobre la agrupación y otra sobre los grados de libertad.

Veamos primero los grados de libertad. Para entender el concepto, consideremos si sabemos que $x+y+z=10$ Entonces $x$ puede ser lo que queramos, y $y$ puede ser lo que queramos, pero una vez que fijamos esos 2 sólo hay un valor que $z$ puede ser, así que tenemos 2 grados de libertad. Cuando calculamos $S^2$ si restamos la media poblacional de cada $x_i$ luego elevamos al cuadrado y sumamos, entonces dividiríamos por $n$ tomando la diferencia media al cuadrado. Pero generalmente no conocemos la media poblacional, así que restamos la media muestral como estimación de la media poblacional. Pero restando la media muestral que se estima a partir de los mismos datos que estamos utilizando para hallar $S^2$ garantiza la menor suma de cuadrados posible, por lo que tenderá a ser demasiado pequeña. Pero si dividimos por $n-1$ entonces es insesgada porque hemos tenido en cuenta que ya hemos utilizado los mismos datos para calcular una información (la media es sólo la suma dividida por una constante). En los modelos de regresión, los grados de libertad son iguales a $n$ menos el número de parámetros que estimamos. Cada vez que estimamos un parámetro (media, intercepto, pendiente) estamos gastando 1 grado de libertad.

Para la función de varianza agrupada, $S^2_c$ y $S^2_t$ ya están divididos por $n_c-1$ y $n_t-1$ Entonces sumamos las 2 sumas de cuadrados y dividimos por el total de grados de libertad (restamos 2 porque estimamos 2 medias muestrales para obtener las sumas de cuadrados). La varianza conjunta es simplemente una media ponderada de las 2 varianzas.

7voto

JohnRos Puntos 3211

La varianza conjunta es una media ponderada de los dos estimadores insesgados independientes: $S^2_c$ y $S^2_t$ . ¿Por qué esas ponderaciones y cuál es la relación con los grados de libertad? Esas ponderaciones son tales que la media ponderada es insesgada.

Los grados de libertad

  1. Versión contable: como estás sumando diferencias respecto a la media, que siempre suman cero, sabiendo $n-1$ de ellos revelará el último. Esto sugiere que en realidad sólo tiene $n-1$ independiente variables aleatorias.
  2. Versión geométrica: Los datos pueden descomponerse ortogonalmente en dos componentes: la media y la distancia a la media. El vector medio abarca un espacio lineal unidimensional. Su complemento ortogonal debe ser un espacio lineal de dimensión $n-1$ . Así que los grados de libertad pueden verse (¡y deben verse!) como la dimensión de $(x_i-\bar x)_{i=1}^n$ es decir, el espacio lineal en el que residen las distancias con respecto a la media.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X