Pregunta 3)
En la notación de ser entendido como matriz-vector, suponga que la especificación correcta es
$$y = X\beta + \gamma y_{-1}+ e$$
(donde $X$ contiene la constante y el $X_1$ variable y $e$ es ruido blanco, y $E(e\mid X) =0$), pero que especificar y estimar en su lugar
$$y = X\beta + u$$
es decir, sin incluir el MUCHACHO, así que en realidad $u =\gamma y_{-1}+ e$.
Luego estimación OLS dará
$$\hat \beta = (X'X)^{-1}X'y = (X'X)^{-1}X'(X\beta + \gamma y_{-1}+ e) $$
$$= \beta + (X'X)^{-1}X'y_{-1}\gamma +(X'X)^{-1}X'e$$
El valor esperado del estimador es
$$E(\hat \beta) = \beta + E\Big[(X'X)^{-1}X'y_{-1}\gamma\Big] +E\Big[(X'X)^{-1}X'e\Big]$$
y usando la ley de expectativas iteradas
$$E(\hat \beta) = \beta + E\Big(E\Big[(X'X)^{-1}X'y_{-1}\gamma\Big]\mid X\Big) +E\Big(E\Big[(X'X)^{-1}X'e\Big]\mid X\Big)$$
$$= \beta + E\Big((X'X)^{-1}X'E\Big[y_{-1}\gamma\mid X\Big]\Big) +E\Big((X'X)^{-1}X'E\Big[e\mid X\Big]\Big)$$
$$=\beta + E\Big((X'X)^{-1}X'E\Big[y_{-1}\gamma\mid X\Big]\Big) + 0 $$
el último término es cero por nuestras suposiciones. Pero $E\Big[y_{-1}\gamma\mid X\Big] \neq 0$, debido a $X$ contiene todos los regresores (de todos los períodos de tiempo), y así no hay correlación con el MUCHACHO vector. Por lo tanto,$E(\hat \beta) \neq \beta$. En otras palabras, ignorando el retardo de la variable dependiente no va a hacer que el estimador imparcial, mientras $\gamma \neq 0$, es decir, mientras el MUCHACHO no pertenecen a la regresión.
Pregunta 1)
Suponga ahora que usted especifique correctamente, y denotan $Z$ la matriz que contiene también el MUCHACHO.
Aquí (siguiendo los mismos pasos que antes)
$$\hat \beta = \beta + (Z'Z)^{-1}Z'e$$
y
$$E(\hat \beta) = \beta + E\Big((Z'Z)^{-1}Z'E\Big[e\mid Z\Big]\Big)$$
Pero es $e$ (el vector) independiente de $Z$? No, porque el $Z$ contiene el MUCHACHO de todos los períodos de tiempo de la barra de la más reciente, mientras que $e$ contiene los errores de todos los períodos de tiempo de la barra de la primera. Así que incluso si $e$ no es en serie correlacionados, que se correlaciona con el vector $y_{-1}$.
De hecho, el último término no es cero y $$E(\hat \beta) \neq \beta$$ OLS estimador es sesgado.
Pero el estimador OLS será consistente si, de hecho, la inclusión de un MUCHACHO elimina la correlación serial, debido a que, utilizando las propiedades de la plim operador)
$$\operatorname{plim}\hat \beta = \beta + \operatorname{plim}\left(\frac 1{n-1} Z'Z\right)^{-1}\cdot \operatorname{plim}\left(\frac 1{n-1}Z'e\right)$$
Parte de la hipótesis estándar (y más "fácilmente" satisfecho), es que la primera plim del producto converge a algo finito. La segunda plim explícitamente escrito está (y utilizando el supuesto de estacionariedad para invocar la LLN)
$$\operatorname{plim}\left(\frac 1{n-1}Z'\mathbf e\right) = \left[\begin{matrix}
\operatorname{plim}\frac 1{n-1}\sum_{i=2}^ne_i \\
\operatorname{plim}\frac 1{n-1}\sum_{i=2}^nx_{i}e_i \\
\operatorname{plim}\frac 1{n-1}\sum_{i=2}^ny_{i-1}e_i \\
\end{de la matriz}\right] \rightarrow\left[\begin{matrix}
E(e_i) \\
E(x_{i}e_i) \\
E(y_{i-1}e_i) \\
\end{de la matriz}\right]\; \forall i$$
$E(e\mid X) = 0 \Rightarrow E(e_i) = 0$, y también que $E(x_{i}e_i)=0$, para todos los $i$.
Por último, SI la correlación serial ha sido quitado, entonces $E(y_{i-1}e_i) =0$ también. Así que este plim llega a cero y por lo tanto
$$\operatorname{plim}\hat \beta = \beta$$
es decir, el estimador de MCO es, de hecho, consistente en este caso. Así que el "resumen" es correcta.
Pregunta 2)
La frase completa de Wooldridge es
"También es válido usar el SC-robusto errores estándar en los modelos con la rezagados de las variables dependientes suponiendo, claro, que hay una buena razón para permitir la correlación serial en estos modelos".
es decir, cuando tenemos buenas razones para creer que la inclusión de los rezagados de las variables dependientes no consigue eliminar la autocorrelación. Y parece que nos metimos un Catch-22: si la correlación serial (SC) ha sido eliminado, ¿por qué usar SC-robusto sexual errores? Y si la correlación serial no ha sido eliminado, nuestro estimador de MCO serán inconsistentes, por lo que en este caso es importante/útil/apropiado para el uso de asintótica de inferencia? Bueno, parece que si se sospecha que SC todavía existe, es mejor tratar de hacer algo acerca de ello, sin tener en cuenta. Pero tu comentario tiene mérito, y yo le sugerimos comunicarse con Wooldridge directamente en el asunto, con el fin de obtener una respuesta con autoridad.