En un $\text{MA}(1)$ modelo de esa forma tenemos auto-covarianza dada por:
$$\gamma(k) \equiv \mathbb{Cov}(X_t, X_{t+k}) = \mathbb{E}(X_t X_{t+k}) = \begin{cases} (1+\theta^2) \sigma^2 & & \text{for } |k|=0, \\[6pt] \theta \sigma^2 & & \text{for } |k|=1, \\[6pt] 0 & & \text{for } |k|>1. \\[6pt] \end{cases}$$
Así se obtiene la función de autocorrelación:
$$\rho(k) \equiv \mathbb{Corr}(X_t, X_{t+k}) = \frac{\gamma(k)}{\gamma(0)} = \begin{cases} 1 & & \text{for } |k|=0, \\[6pt] \frac{\theta}{1+\theta^2} & & \text{for } |k|=1, \\[6pt] 0 & & \text{for } |k|>1. \\[6pt] \end{cases}$$
No ha especificado una distribución de error para su proceso, pero si utiliza la distribución normal para su término de error, entonces los valores observables en el proceso son conjuntamente normales y, por tanto, los valores no correlacionados son efectivamente independientes. En ese caso, es correcto afirmar que $X_t \text{ } \bot \text{ } X_{t+k}$ para $k>1$ . En este caso, el mejor predictor de $X_{t+2}$ datos hasta $t$ es cero. (Por cierto, nada en estos resultados requiere $|\theta| < 1$ los resultados son los mismos aunque no se cumpla esta restricción).