La simulación muestra una eficiencia muy similar para estos estimadores, incluso cuando $a=0.99$ .
> a<-0.99
> b<-10
> r<-replicate(1000,{
+ x<-numeric(1000+2000)
+ x[1]<-rnorm(1)
+ for(i in 2:3000) x[i]<-x[i-1]*a+b+rnorm(1)
+ x<-x[-(1:1000)]
+ m<-lm(x[-1]~x[-2000])
+ c(coef(m)[1]/(1-coef(m)[2]),mean(x))
+ })
> apply(r,1,mean)
(Intercept)
1000.091 1000.068
> apply(r,1,sd)
(Intercept)
2.289759 2.209923
Configurar $\sigma^2$ ser pequeño tampoco ayuda: con $\sigma^2=0.01$
> apply(r,1,mean)
(Intercept)
999.9974 999.9953
> apply(r,1,sd)
(Intercept)
0.2182076 0.2109398
La otra cosa que aparece en la simulación es que la correlación entre los dos estimadores aumenta con la duración de la simulación. Es de 0,972 para la simulación anterior, con 2000 puntos, pero de 0,998 para 20000 puntos.
Por lo tanto, parece posible que los estimadores sean los mismos (para un tiempo infinito).
Consideremos ahora la regresión OLS. Defina $z_d =x_{d-1}-\bar x_{[1:(n-1)}$ y $y_d=x_d-\bar x_{[2:n]}$ , es decir, centrar las dos variables en la regresión sobre sus respectivas medias muestrales. Escriba $\hat\beta$ para la intercepción y $\hat\alpha$ para el intercepto y la pendiente ajustados en esta nueva regresión.
Tenemos $\hat\beta=0$ y $\hat\alpha=\hat a$ , sólo como un hecho sobre OLS. Así que el estimador $\hat\beta/(1-\hat\alpha)$ para la media de $y$ es idéntico al estimador $\bar y$ ya que ambos son idénticos a cero.
Volviendo a la escala original, desplazamos el intercepto hacia la izquierda en $\bar x_{[2:n]}$ y hasta $\bar x_{[1:(n-1)}$ a
$$\hat b= \hat\beta+\bar x_{[1:(n-1)} -\hat \alpha\times\bar x_{[2:n]}$$
Para los grandes $n$ las dos medias son aproximadamente iguales, por lo que $$\hat b= (1-\hat a)\times \bar x_n +O_p(n^{-1})$$ y la media estimada es $$\frac{\hat b}{1-\hat a}=\bar x_n +O_p(n^{-1})$$
Los dos estimadores son asintóticamente equivalentes (en primer orden) para grandes $n$ .
Concluiré señalando que este es el tipo de resultado que es bastante difícil de demostrar si no puedes imaginar que podría ser cierto, y la simulación es una buena manera de llegar a imaginar que podría ser cierto.
ACTUALIZACIÓN
En el caso especial en el que los errores son normales, también podemos considerar la estimación de máxima verosimilitud. Los resultados estándar para datos independientes no implican eficiencia, pero podemos esperar al menos una eficiencia bastante buena.
Considere el modelo $X\sim N(\mu, \Xi)$ , donde $\mu$ es la media que nos interesa y $\Xi$ es el modelo de covarianza AR-1 implícito en la ecuación generadora. La desviación es $$d= -2\ell(\mu,\Xi)= \log |Xi| +(x-\mu)^T\Xi^{-1}(x-\mu)$$
Diferenciación wrt $\mu$ da $$0 = -1^T\Xi^{-1}(y-\mu) - (y-\mu)^T\Xi^{-1}1$$ Escriba $\xi^{ij}$ para el $(i,j)$ elemento de $\Xi^{-1}$ y tenemos
$$ \hat\mu = \frac{\sum_{i,j}\xi^{ij}x_i}{\sum_{i,j}\xi^{ij}}$$
Ahora, excepto los efectos de borde, $\xi^{ij}$ depende sólo de $|i-j|$ . De hecho, $\Xi^{-1}$ es tridiagonal, por lo que $\xi^{ij}$ es distinto de cero sólo cuando $|i-j|\leq 1$ . Así que (de nuevo, hasta efectos de borde) $$\sum_{i,j=1}^n\xi^{ij}x_i\approx\sum_{k=1}^n \sum_{l=-1}^1\xi^{k,k+l}x_k\approx \sum_{k=1}^n \left(\sum_{l=-1}^1\xi^{k,k+l}\right)x_k$$ Ahora, $\left(\sum_{l=-1}^1\xi^{k,k+l}\right)$ es constante en $k$ (excepto los efectos de los bordes). Llámalo $A$ . $$\hat\mu\approx\frac{A\sum_i x_i}{An}=\bar x$$
Así que la MLE también es asintóticamente equivalente a la media de la muestra, en primer orden.