2 votos

Estimación de la media en presencia de correlación serial

Consideremos la siguiente ecuación generadora:

\begin{equation} X_{d+1} = a X_d + b + {\cal E}_d \end{equation}

donde $a$ y $b$ son constantes con $0 <a < 1$ y $b > 0$ . Además, dejemos que ${\cal E}_d$ ser independiente de todo lo demás con $E[{\cal E}_d] = 0$ y $E[{\cal E}_d^2] = \sigma^2 ~~\forall d$ .

Nos interesan los valores de $X_d$ sólo después de que la secuencia alcance el "estado estacionario" y así ignorar las condiciones de partida (así que para simplificar, supongamos que la ecuación "comienza en $d=-\infty$ ").

Es fácil ver que $E[X] = \frac{b}{1-a}$ .

Ahora digamos que tenemos $N$ muestras consecutivas $X_1,\cdots, X_N$ de $X$ y quiere calcular $E[X]$ . Tenemos dos opciones:

  1. Opción A: Calcular la media simple de $X_1, \cdots, X_N$ . Así que $E[X] \approx \frac{X_1+\cdots + X_N}{N}$ .

  2. Opción B: Realice una regresión OLS utilizando la ecuación de generación anterior para calcular los valores de $a$ y $b$ y luego calcular la media utilizando $E[X] = \frac{b}{1-a}$ .

Mis preguntas:

  1. ¿Cuáles son los pros y los contras de cada enfoque?
  2. Creo que la segunda opción es superior y da lugar a un estimador con menor varianza. ¿Es esto cierto y, si es así, cómo puedo demostrarlo?

1voto

lucia de finetti Puntos 30

La simulación muestra una eficiencia muy similar para estos estimadores, incluso cuando $a=0.99$ .

> a<-0.99
> b<-10
> r<-replicate(1000,{
+ x<-numeric(1000+2000)
+ x[1]<-rnorm(1)
+ for(i in 2:3000) x[i]<-x[i-1]*a+b+rnorm(1)
+ x<-x[-(1:1000)]
+ m<-lm(x[-1]~x[-2000])
+ c(coef(m)[1]/(1-coef(m)[2]),mean(x))
+ })

> apply(r,1,mean)
(Intercept)             
   1000.091    1000.068 
> apply(r,1,sd)
(Intercept)             
   2.289759    2.209923 

Configurar $\sigma^2$ ser pequeño tampoco ayuda: con $\sigma^2=0.01$

> apply(r,1,mean)
(Intercept)             
   999.9974    999.9953 
> apply(r,1,sd)
(Intercept)             
  0.2182076   0.2109398 

La otra cosa que aparece en la simulación es que la correlación entre los dos estimadores aumenta con la duración de la simulación. Es de 0,972 para la simulación anterior, con 2000 puntos, pero de 0,998 para 20000 puntos.

Por lo tanto, parece posible que los estimadores sean los mismos (para un tiempo infinito).

Consideremos ahora la regresión OLS. Defina $z_d =x_{d-1}-\bar x_{[1:(n-1)}$ y $y_d=x_d-\bar x_{[2:n]}$ , es decir, centrar las dos variables en la regresión sobre sus respectivas medias muestrales. Escriba $\hat\beta$ para la intercepción y $\hat\alpha$ para el intercepto y la pendiente ajustados en esta nueva regresión.

Tenemos $\hat\beta=0$ y $\hat\alpha=\hat a$ , sólo como un hecho sobre OLS. Así que el estimador $\hat\beta/(1-\hat\alpha)$ para la media de $y$ es idéntico al estimador $\bar y$ ya que ambos son idénticos a cero.

Volviendo a la escala original, desplazamos el intercepto hacia la izquierda en $\bar x_{[2:n]}$ y hasta $\bar x_{[1:(n-1)}$ a

$$\hat b= \hat\beta+\bar x_{[1:(n-1)} -\hat \alpha\times\bar x_{[2:n]}$$

Para los grandes $n$ las dos medias son aproximadamente iguales, por lo que $$\hat b= (1-\hat a)\times \bar x_n +O_p(n^{-1})$$ y la media estimada es $$\frac{\hat b}{1-\hat a}=\bar x_n +O_p(n^{-1})$$

Los dos estimadores son asintóticamente equivalentes (en primer orden) para grandes $n$ .

Concluiré señalando que este es el tipo de resultado que es bastante difícil de demostrar si no puedes imaginar que podría ser cierto, y la simulación es una buena manera de llegar a imaginar que podría ser cierto.

ACTUALIZACIÓN

En el caso especial en el que los errores son normales, también podemos considerar la estimación de máxima verosimilitud. Los resultados estándar para datos independientes no implican eficiencia, pero podemos esperar al menos una eficiencia bastante buena.

Considere el modelo $X\sim N(\mu, \Xi)$ , donde $\mu$ es la media que nos interesa y $\Xi$ es el modelo de covarianza AR-1 implícito en la ecuación generadora. La desviación es $$d= -2\ell(\mu,\Xi)= \log |Xi| +(x-\mu)^T\Xi^{-1}(x-\mu)$$

Diferenciación wrt $\mu$ da $$0 = -1^T\Xi^{-1}(y-\mu) - (y-\mu)^T\Xi^{-1}1$$ Escriba $\xi^{ij}$ para el $(i,j)$ elemento de $\Xi^{-1}$ y tenemos

$$ \hat\mu = \frac{\sum_{i,j}\xi^{ij}x_i}{\sum_{i,j}\xi^{ij}}$$

Ahora, excepto los efectos de borde, $\xi^{ij}$ depende sólo de $|i-j|$ . De hecho, $\Xi^{-1}$ es tridiagonal, por lo que $\xi^{ij}$ es distinto de cero sólo cuando $|i-j|\leq 1$ . Así que (de nuevo, hasta efectos de borde) $$\sum_{i,j=1}^n\xi^{ij}x_i\approx\sum_{k=1}^n \sum_{l=-1}^1\xi^{k,k+l}x_k\approx \sum_{k=1}^n \left(\sum_{l=-1}^1\xi^{k,k+l}\right)x_k$$ Ahora, $\left(\sum_{l=-1}^1\xi^{k,k+l}\right)$ es constante en $k$ (excepto los efectos de los bordes). Llámalo $A$ . $$\hat\mu\approx\frac{A\sum_i x_i}{An}=\bar x$$

Así que la MLE también es asintóticamente equivalente a la media de la muestra, en primer orden.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X