¿Pueden ayudarme a entender, o remitirme a una fuente, qué es la distribución muestral de la suma de las puntuaciones? Sé cómo obtener la distribución muestral de la media para construir una prueba t, etc. Más concretamente, ¿cómo se relaciona la variabilidad de la distribución muestral de las sumas de las puntuaciones con la variabilidad de la variable subyacente en la población? Por ejemplo, las personas se pasan bolsas de arena unas a otras. Mido el tiempo total que tarda una muestra de n=10 personas en pasarse la bolsa y calculo una media. Si repito este muestreo tendré una desviación estándar de la media de la muestra, y entonces puedo calcular la variabilidad en la población. Suponiendo un proceso relativamente normal, aunque estoy midiendo el tiempo, etc. El problema es si mido la misma muestra de 10 personas que pasan bolsas cada vez. Las muestras están relacionadas. ¿Algún consejo?
Respuesta
¿Demasiados anuncios?Sugieres que te conformas con asumir una normalidad aproximada. Entonces es sencillo: una combinación lineal de variables normales multivariantes es en sí misma normal. La media y la varianza se deducen de las propiedades elementales de la media y la varianza.
Si $X\sim N(\mathbf{\mu},\Sigma)$ entonces $a'X \sim N(a'\mathbf{\mu},a'\Sigma a)$ .
En el caso de una suma, $a = \bf 1$ . Es decir, la suma es normal, donde la media de la suma es la suma de las medias y la varianza de la suma es la suma de todas las varianzas + el doble de la suma de todas las covarianzas por pares.
Además, si las series no son demasiado dependientes y son iid, o independientes y ninguna de ellas tiene una varianza demasiado grande con respecto a todas las demás, el CLT se aplica definitivamente, así que si hay suficientes términos, deberías tener eso $\sqrt n \bar x$ es normal. Tenga en cuenta que $\sqrt n \bar x = \frac{X_1+\dots+X_n}{\sqrt n} $ .
A partir de ahí, si crees que el $n$ es lo suficientemente grande como para utilizar la aproximación normal en algún punto, se puede sacar una para la suma también (el CLT - al tratarse de límites - no se aplica a una suma no escalada, sino a la calidad de la aproximación de la cdf en algún punto específico $n$ se traslada a la suma). Sin embargo, el tamaño de las muestras necesarias para que se apliquen puede ser bastante grande.
Más allá de eso, convergencia a la normalidad de las sumas a escala adecuada puede ocurrir en una gran variedad de situaciones. De nuevo, el tamaño de las muestras debe ser grande.