Supongamos que especificamos un modelo AR(1) simple, con todas las propiedades habituales,
$$y_t = \beta y_{t-1} + u_t$$
Denotemos la covarianza teórica del término de error como
$$\gamma_j \equiv E(u_tu_{t-j})$$
Si podríamos observar el término de error, entonces la autocorrelación muestral del término de error se define como
$$\tilde \rho_j \equiv \frac {\tilde \gamma_j}{\tilde \gamma_0}$$
donde
$$\tilde\gamma_j \equiv \frac 1n \sum_{t=j+1}^nu_tu_{t-j},\;\;\; j=0,1,2...$$
Pero en la práctica, no observamos el término de error. Así que la autocorrelación de la muestra relacionada con el término de error se estimará utilizando los residuos de la estimación, como
$$\hat\gamma_j \equiv \frac 1n \sum_{t=j+1}^n\hat u_t\hat u_{t-j},\;\;\; j=0,1,2...$$
El estadístico Q de Box-Pierce (el Q de Ljung-Box no es más que una versión escalada asintóticamente neutral del mismo) es
$$Q_{BP} = n \sum_{j=1}^p\hat\rho^2_j = \sum_{j=1}^p[\sqrt n\hat\rho_j]^2\xrightarrow{d} \;???\;\chi^2(p) $$
Nuestra cuestión es exactamente si $Q_{BP}$ puede decirse que tiene asintóticamente una distribución chi-cuadrado (bajo el nulo de no autocorrelación en el término de error) en este modelo.
Para que esto ocurra, todos y cada uno de $\sqrt n \hat\rho_j$ debe ser asintóticamente normal. Una forma de comprobarlo es examinar si $\sqrt n \hat\rho$ tiene la misma distribución asintótica que $\sqrt n \tilde\rho$ (que se construye utilizando los errores verdaderos, y por lo tanto tiene el comportamiento asintótico deseado bajo el nulo).
Tenemos que
$$\hat u_t = y_t - \hat \beta y_{t-1} = u_t - (\hat \beta - \beta)y_{t-1}$$
donde $\hat \beta$ es un estimador consistente. Así que
$$\hat\gamma_j \equiv \frac 1n \sum_{t=j+1}^n[u_t - (\hat \beta - \beta)y_{t-1}][u_{t-j} - (\hat \beta - \beta)y_{t-j-1}]$$
$$=\tilde \gamma _j -\frac 1n \sum_{t=j+1}^n (\hat \beta - \beta)\big[u_ty_{t-j-1} +u_{t-j}y_{t-1}\big] + \frac 1n \sum_{t=j+1}^n(\hat \beta - \beta)^2y_{t-1}y_{t-j-1}$$
Se supone que la muestra es estacionaria y ergódica, y se supone que existen momentos hasta el orden deseado. Dado que el estimador $\hat \beta$ es consistente, esto es suficiente para que las dos sumas lleguen a cero. Así que concluimos
$$\hat \gamma_j \xrightarrow{p} \tilde \gamma_j$$
Esto implica que
$$\hat \rho_j \xrightarrow{p} \tilde \rho_j \xrightarrow{p} \rho_j$$
Pero esto no garantiza automáticamente que $\sqrt n \hat \rho_j$ converge a $\sqrt n\tilde \rho_j$ (en la distribución) (piénsese que el teorema del mapa continuo no se aplica aquí porque la transformación aplicada a las variables aleatorias depende de $n$ ). Para que esto ocurra, necesitamos
$$\sqrt n \hat \gamma_j \xrightarrow{d} \sqrt n \tilde \gamma_j$$
(el denominador $\gamma_0$ -tilde o hat- convergerá a la varianza del término de error en ambos casos, por lo que es neutral a nuestro problema).
Tenemos
$$\sqrt n \hat \gamma_j =\sqrt n\tilde \gamma _j -\frac 1n \sum_{t=j+1}^n \sqrt n(\hat \beta - \beta)\big[u_ty_{t-j-1} +u_{t-j}y_{t-1}\big] \\+ \frac 1n \sum_{t=j+1}^n\sqrt n(\hat \beta - \beta)^2y_{t-1}y_{t-j-1}$$
Entonces la pregunta es: ¿estas dos sumas, multiplicadas ahora por $\sqrt n$ se van a cero en probabilidad por lo que nos quedaremos con $\sqrt n \hat \gamma_j =\sqrt n\tilde \gamma _j$ ¿Asintóticamente?
Para la segunda suma tenemos
$$\frac 1n \sum_{t=j+1}^n\sqrt n(\hat \beta - \beta)^2y_{t-1}y_{t-j-1} = \frac 1n \sum_{t=j+1}^n\big[\sqrt n(\hat \beta - \beta)][(\hat \beta - \beta)y_{t-1}y_{t-j-1}]$$
Desde $[\sqrt n(\hat \beta - \beta)]$ converge a una variable aleatoria, y $\hat \beta$ es consistente, esto irá a cero.
Para la primera suma, aquí también tenemos que $[\sqrt n(\hat \beta - \beta)]$ converge a una variable aleatoria, por lo que tenemos que
$$\frac 1n \sum_{t=j+1}^n \big[u_ty_{t-j-1} +u_{t-j}y_{t-1}\big] \xrightarrow{p} E[u_ty_{t-j-1}] + E[u_{t-j}y_{t-1}]$$
El primer valor esperado, $E[u_ty_{t-j-1}]$ es cero por los supuestos del modelo estándar AR(1). Pero el segundo valor esperado no es ya que la variable dependiente depende de los errores del pasado.
Así que $\sqrt n\hat \rho_j$ no tendrá la misma distribución asintótica que $\sqrt n\tilde \rho_j$ . Pero la distribución asintótica de esta última es la Normal estándar, que es la que conduce a una distribución chi-cuadrado al elevar al cuadrado el v.r.
Por lo tanto, concluimos que en un modelo de serie temporal puro, no se puede decir que el estadístico Q de Box-Pierce y el Q de Ljung-Box tengan una distribución asintótica chi-cuadrado, por lo que la prueba pierde su justificación asintótica.
Esto sucede porque la variable del lado derecho (aquí el retardo de la variable dependiente) por diseño es no estrictamente exógena al término de error, y hemos encontrado que dicha exogeneidad estricta es necesaria para que el estadístico Q de BP/LB tenga la distribución asintótica postulada.
En este caso, la variable del lado derecho sólo está "predeterminada", y la prueba de Breusch-Godfrey es entonces válida. (para el conjunto completo de condiciones requeridas para una prueba asintóticamente válida, véase Hayashi 2000, p. 146-149).