5 votos

Prueba tipo ANOVA pero con varianza poblacional conocida de cada grupo

Tengo un conjunto de$N$ muestras$s_{i}$, cada una muestreada de una distribución normal con desviaciones estándar$\sigma_i$, que se conocen. Me gustaría saber si las distribuciones tienen la misma media.

Creo que esta situación está estrechamente relacionada con ANOVA, pero la diferencia es que solo tengo una muestra por 'grupo' y que conozco exactamente las desviaciones estándar del grupo.

5voto

Sean Hanley Puntos 2428

Como lo describen ellos, sus datos constituyen una mezcla de distribución. Suponiendo que las distribuciones son conocidos por ser normales con varianzas conocidas, la media y la varianza de la mezcla es:
\begin{align} \mu_{\rm mixture} &= \sum_k p_k\mu_k \\ \sigma^2_{\rm mixture} &= \sum_k p_k\big((\mu_k - \mu_{\rm mixture})^2 + \sigma^2_k\big) \end{align} donde $k$ los índices de la componente de distribuciones y $p_k$ es la proporción de la mezcla que cada componente que constituye.

Bajo su hipótesis nula, el componente de mezclas todos tienen el mismo medio (para mayor comodidad, podemos llamar a $0$). Además, tengo entendido que las proporciones son todos los $1/N$, ya que sólo tiene un dato de cada componente. Estos hechos simplificar su situación un poco. Sus datos habría esperado varianza igual a la suma de la componente conocido desviaciones. Por otro lado, si los medios para variar la varianza de la componente significa que puede agregar mucho a la variación de su mezcla.

Por lo tanto, usted necesita simplemente para probar si la varianza de los datos es mayor que la suma de la componente conocido desviaciones. Esto se puede hacer con una prueba de chi-cuadrado (ver @Glen_b el anwer aquí: ¿por Qué es la distribución muestral de la varianza de la chi-cuadrado?).

Aquí está un rápido R demo: Primero debo simular la hipótesis nula y mostrar su distribución. Entonces puedo generar datos donde la hipótesis nula es falsa y mostrar la prueba. Los datos son los tres puntos dibujados a partir de distribuciones normales con los medios igual a $0$ (o que podría haber sido cualquier otra cosa, siempre y cuando sean de la misma) y varianzas iguales $4$, $6$, y $8$. Por lo tanto, la mezcla resultante de la distribución de la varianza es $18$. En este caso hay tres puntos de datos, así que usted tiene $2$ grados de libertad.

set.seed(0884)                   # this makes the example reproducible
chi.vect = vector(length=10000)  # this will store the test statistics
for(i in 1:10000){               # I do this 10k times
  x  = c(rnorm(1,0,sd=sqrt(4)),  # here I generate the three data points
         rnorm(1,0,sd=sqrt(6)), 
         rnorm(1,0,sd=sqrt(8)))
  vx = var(x)                    # this computes the variance of the sample
  chi.vect[i] = 2*vx / 18        # this computes the test statistic
}

enter code here

x   = c(rnorm(1, mean=30, sd=sqrt(4)),  # these data come from distributions
        rnorm(1, mean=20, sd=sqrt(6)),  #   w/ different means
        rnorm(1, mean=10, sd=sqrt(8)))  # x   = 29.26698 26.00434 13.89382
vx  = var(x)                            # vx  = 65.60725
chi = 2*vx / 18                         # chi = 7.289695
1-pchisq(chi, df=2)                     # p   = 0.0261254

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X