Considere el siguiente modelo.
Supongamos que $(x_i, u_i)$ es una secuencia de vectores aleatorios independientes e idénticamente distribuidos en $\mathbf{R}^{d+1}:$
- $x_i$ son $\mathbf{R}^d$ -vectores aleatorios de valor, que representarán las variables "independientes".
- $u_i$ son variables aleatorias que representan las "perturbaciones aleatorias".
- El índice $i$ representa la observación y suponemos que las diferentes observaciones son independientes.
- Suponemos que $(x_i, u_i)$ tienen una distribución común con segundo momento finito tal que $\mathbf{E}(u_i x_i) = 0,$ pero dejando la posibilidad $\mathbf{E}(u_i) \neq 0$ abierto.
- Dejemos que $X_n^\intercal = [x_1, \ldots, x_n]$ sea la "matriz de datos" de tipo $(n, d)$ ( $n$ "filas" y $d$ "columnas") rellenadas con las variables "independientes" y $v_n = [u_1, \ldots, u_n]^\intercal$ sea el "vector de perturbaciones" o "error aleatorio". Una vez más, me interesan las matemáticas, pero si prefieres llamarlas de otra manera por intuición, adelante, Sólo me importan las matemáticas.
- Supongamos que $X_n$ tiene rango completo $d.$ Bajo este supuesto, la matriz cuadrada $X_n^\intercal X_n$ (de orden $d$ ) es invertible.
Considere el siguiente modelo lineal $$ y_n = X_n \beta + v_n, $$ donde $\beta \in \mathbf{R}^d$ es un vector de parámetros que hay que estimar.
Supongo que ambos $y_n$ y $X_n$ se observan, la tarea consiste en estimar $\beta.$ Para ello, utilizaré los mínimos cuadrados ordinarios (MCO). En otras palabras, quiero que el vector $\beta \in \mathbf{R}^d$ que minimiza la forma cuadrática $$ \beta \mapsto (y_n - X_n \beta)^\intercal (y_n - X_n \beta). $$ Siendo esta una forma cuadrática, cualquier $\hat \beta$ que hace que su derivada sea cero será un minimizador global. Diferenciando (con respecto a $\beta$ ) da las llamadas "ecuaciones normales" $$ 2 X_n^\intercal(y_n - X_n \beta) = 0 $$ que, en virtud de la hipótesis de rango completo de $X_n,$ da un minimizador único $$ \hat \beta_n = (X_n^\intercal X_n)^{-1} X_n^\intercal y_n. $$ Esta es la estimación OLS de $\beta$ y su obtención sólo requiere $X_n$ para tener un rango completo.
Entonces, $$ \hat \beta_n = (X_n^\intercal X_n)^{-1} X_n^\intercal y_n = \beta + (X_n^\intercal X_n)^{-1} X_n^\intercal v_n. $$ Ahora, considere $$ X_n^\intercal X_n = [x_1, \ldots, x_n] \begin{bmatrix} x_1^\intercal \\ \vdots \\ x_n^\intercal \end{bmatrix} = \sum_{i = 1}^n x_i x_i^\intercal. $$ Así, por la Ley Fuerte de los Grandes Números (SLLN), encontramos $$ \dfrac{1}{n} X_n^\intercal X_n \to \Sigma_x \quad \mathrm{a.s.}, $$ y como la función $f \mapsto f^{-1}$ es continua (de los espacios de funciones lineales invertibles sobre sí misma), vemos que $$ n(X_n^\intercal X_n)^{-1} \to \Sigma_x^{-1} \quad \mathrm{a.s.} $$ Siguiente, $$ \dfrac{1}{n} X_n^\intercal v_n = \dfrac{1}{n} \sum_{i = 1}^n u_i x_i \to \mathbf{E}(u_1x_1) \quad \mathrm{a.s.}, $$ de nuevo por el SLLN y como la secuencia $(u_i x_i)$ es independiente e idénticamente distribuido. Como suponemos $\mathbf{E}(u_i x_i) = 0,$ llegamos a que $\hat \beta_n$ es una secuencia de estimadores que convergen a.s. a $\beta.$
Pero esto me desconcierta, ya que estoy probando que la secuencia de estimadores OLS converge casi con seguridad y a fortiori en probabilidad al valor "verdadero" de $\beta.$ ¿Por qué nos detenemos en la convergencia de la probabilidad? ¿Me estoy perdiendo algo? Supongo que se puede rehacer la prueba expuesta anteriormente pero sólo suponiendo que las diferentes observaciones sólo están descorrelacionadas y ya no son independientes; entonces mis aplicaciones de la SLLN se romperán y probablemente algún control en la matriz de dispersión de $x$ o la matriz de datos $X_n$ permite rescatar la convergencia pero ya no a.s. sino esta vez definitivamente sólo en probabilidad.
P.D. Después de publicar esto aquí y de la acogida que ha tenido, creo que me he dado cuenta de que debería seguir utilizando math.stackexchange para las preguntas de naturaleza matemática, en lugar de las preguntas de intuición o de referencia. Disculpas si esto parece demasiado off-topic.