¿Converge el estimador OLS en la regresión lineal simple a.s.?

Question

¿Converge el estimador OLS en la regresión lineal simple a.s.?

Preguntado el 8 de Julio, 2021: Cuando se hizo la pregunta
106 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Considere el siguiente modelo.

Supongamos que $(x_i, u_i)$ es una secuencia de vectores aleatorios independientes e idénticamente distribuidos en $\mathbf{R}^{d+1}:$

$x_i$ son $\mathbf{R}^d$ -vectores aleatorios de valor, que representarán las variables "independientes".
$u_i$ son variables aleatorias que representan las "perturbaciones aleatorias".
El índice $i$ representa la observación y suponemos que las diferentes observaciones son independientes.
Suponemos que $(x_i, u_i)$ tienen una distribución común con segundo momento finito tal que $\mathbf{E}(u_i x_i) = 0,$ pero dejando la posibilidad $\mathbf{E}(u_i) \neq 0$ abierto.
Dejemos que $X_n^\intercal = [x_1, \ldots, x_n]$ sea la "matriz de datos" de tipo $(n, d)$ ( $n$ "filas" y $d$ "columnas") rellenadas con las variables "independientes" y $v_n = [u_1, \ldots, u_n]^\intercal$ sea el "vector de perturbaciones" o "error aleatorio". Una vez más, me interesan las matemáticas, pero si prefieres llamarlas de otra manera por intuición, adelante, Sólo me importan las matemáticas.
Supongamos que $X_n$ tiene rango completo $d.$ Bajo este supuesto, la matriz cuadrada $X_n^\intercal X_n$ (de orden $d$ ) es invertible.

Considere el siguiente modelo lineal $$ y_n = X_n \beta + v_n, $$ donde $\beta \in \mathbf{R}^d$ es un vector de parámetros que hay que estimar.

Supongo que ambos $y_n$ y $X_n$ se observan, la tarea consiste en estimar $\beta.$ Para ello, utilizaré los mínimos cuadrados ordinarios (MCO). En otras palabras, quiero que el vector $\beta \in \mathbf{R}^d$ que minimiza la forma cuadrática $$ \beta \mapsto (y_n - X_n \beta)^\intercal (y_n - X_n \beta). $$ Siendo esta una forma cuadrática, cualquier $\hat \beta$ que hace que su derivada sea cero será un minimizador global. Diferenciando (con respecto a $\beta$ ) da las llamadas "ecuaciones normales" $$ 2 X_n^\intercal(y_n - X_n \beta) = 0 $$ que, en virtud de la hipótesis de rango completo de $X_n,$ da un minimizador único $$ \hat \beta_n = (X_n^\intercal X_n)^{-1} X_n^\intercal y_n. $$ Esta es la estimación OLS de $\beta$ y su obtención sólo requiere $X_n$ para tener un rango completo.

Entonces, $$ \hat \beta_n = (X_n^\intercal X_n)^{-1} X_n^\intercal y_n = \beta + (X_n^\intercal X_n)^{-1} X_n^\intercal v_n. $$ Ahora, considere $$ X_n^\intercal X_n = [x_1, \ldots, x_n] \begin{bmatrix} x_1^\intercal \\ \vdots \\ x_n^\intercal \end{bmatrix} = \sum_{i = 1}^n x_i x_i^\intercal. $$ Así, por la Ley Fuerte de los Grandes Números (SLLN), encontramos $$ \dfrac{1}{n} X_n^\intercal X_n \to \Sigma_x \quad \mathrm{a.s.}, $$ y como la función $f \mapsto f^{-1}$ es continua (de los espacios de funciones lineales invertibles sobre sí misma), vemos que $$ n(X_n^\intercal X_n)^{-1} \to \Sigma_x^{-1} \quad \mathrm{a.s.} $$ Siguiente, $$ \dfrac{1}{n} X_n^\intercal v_n = \dfrac{1}{n} \sum_{i = 1}^n u_i x_i \to \mathbf{E}(u_1x_1) \quad \mathrm{a.s.}, $$ de nuevo por el SLLN y como la secuencia $(u_i x_i)$ es independiente e idénticamente distribuido. Como suponemos $\mathbf{E}(u_i x_i) = 0,$ llegamos a que $\hat \beta_n$ es una secuencia de estimadores que convergen a.s. a $\beta.$

Pero esto me desconcierta, ya que estoy probando que la secuencia de estimadores OLS converge casi con seguridad y a fortiori en probabilidad al valor "verdadero" de $\beta.$ ¿Por qué nos detenemos en la convergencia de la probabilidad? ¿Me estoy perdiendo algo? Supongo que se puede rehacer la prueba expuesta anteriormente pero sólo suponiendo que las diferentes observaciones sólo están descorrelacionadas y ya no son independientes; entonces mis aplicaciones de la SLLN se romperán y probablemente algún control en la matriz de dispersión de $x$ o la matriz de datos $X_n$ permite rescatar la convergencia pero ya no a.s. sino esta vez definitivamente sólo en probabilidad.

P.D. Después de publicar esto aquí y de la acogida que ha tenido, creo que me he dado cuenta de que debería seguir utilizando math.stackexchange para las preguntas de naturaleza matemática, en lugar de las preguntas de intuición o de referencia. Disculpas si esto parece demasiado off-topic.

Preguntado el 8 de Julio, 2021 por deej

Answer 1

2 Respuestas

Answer 2

1voto

alexs77 Puntos 36

Sí. El estimador de $\hat{\beta}$ en OLS es un estimador lineal. Así que podemos obtener el SLLN expresándolo como una media muestral.

$$\hat{\beta} = \frac{\sum_{i=1}^n(X_i - \bar{X})Y_i}{\sum_{i=1}^n(X_i - \bar{X})^2}$$

con un poco de álgebra inteligente no es demasiado difícil expresar la visualización anterior como una media muestral en la forma habitual de $\sum{T_i}/n$ .

Respondido el 8 de Julio, 2021 por alexs77 (36 Puntos )

Answer 3

1voto

lucia de finetti Puntos 30

Tienes razón: la convergencia se mantiene casi segura también. En este caso, no hay ningún esfuerzo adicional para obtener un resultado casi seguro.

Ahora bien, la cuestión de por qué la comunidad de estadísticos matemáticos suele estar contenta de trabajar con la convergencia en probabilidad es fundamentalmente una cuestión sociológica, no una pregunta matemática, por lo que no puedes esperar obtener una respuesta completamente matemática.

La mayoría de las veces (con algunas excepciones importantes) las estadísticas es feliz con la convergencia en probabilidad. Algunas razones que contribuyen:

es cierto en condiciones más débiles, especialmente en lo que respecta a la independencia
las pruebas son más sencillas
las conclusiones asintóticas de mayor interés son sobre el comportamiento de un único gran $n$ en lugar del comportamiento "infinitamente frecuente" de toda una secuencia, en parte porque la asintótica se utiliza a menudo para tranquilizar sobre el comportamiento de los estimadores para una sola $n$
cuando la convergencia casi segura es útil como paso en una prueba, a menudo se puede obtener utilizando (Skorohod/Wichura/Dudley) teoremas de representación casi segura

Definitivamente hay excepciones, tanto de subcampos en los que las propiedades casi seguras son importantes como de individuos que están interesados en resultados casi seguros, pero también es cierto que "en probabilidad" es a menudo suficiente.

Respondido el 9 de Julio, 2021 por lucia de finetti (30 Puntos )

¿Converge el estimador OLS en la regresión lineal simple a.s.?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Converge el estimador OLS en la regresión lineal simple a.s.?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: