3 votos

Disminución de $(X'X)^{-1}$ a medida que aumenta n

Dejemos que $X$ ser un $n \times p$ matriz ( $n \geq p$ como una matriz de datos convencional), con cada columna j rellenado por iid extrae de una variable $\mathcal{X}_j$ . Me gustaría mostrar que, en una notación descuidada, $(X^TX)^{-1} \rightarrow 0$ como $n \rightarrow \infty$ .

Edición 2016/06/15: Voy a ampliar la pregunta para mostrar dónde me he atascado: primero, se sabe que a el estimador de máxima verosimilitud $\hat{\beta} \sim N(\beta,~\sigma \cdot (X^T X)^{-1})$ . Segundo, $\hat{\beta}$ es consistente , lo que significa que $\lim_{ n\to\infty} \hat{\beta} \xrightarrow{p}\beta$ . Como esta pregunta ( ¿Por qué los estimadores asintóticamente consistentes no tienen varianza cero en el infinito? ) sugieren, esto no implica en general $\sigma \cdot (X^T X)^{-1} \to 0$ . Pero, ¿es válido para este caso?


Edición 2016/06/15: La alternativa era mostrar que la adición de nuevos datos $X_{new}$ (de nuevo extraído de $\mathcal{X}$ ) a los datos existentes, lo que da lugar a $X^{* T} = (X^T,~ X_{new}^T)$ , disminuye $(X^{* T} X^*)^{-1}$ . Esta afirmación es más débil, y ahora ya no es suficiente.

2voto

kjetil b halvorsen Puntos 7012

Añadiendo a las otras respuestas: En general no se puede demostrar que, $(X^T X)^{-1}$ se pone a cero cuando $n \rightarrow \infty$ . Necesitarías más supuestos, y no los has especificado. Como ejemplo sencillo, dejemos que el modelo sea un ANOVA de una vía que compare $p$ grupos, codificados como variables ficticias ( $p$ dummys sin intercepción explícita). Dejemos que el número de observaciones en el grupo $i$ sea $n_i$ con $n_1+n_2+\dotsb+n_p$ . Entonces la matriz de diseño $X$ se convierte en $$ X=\begin{bmatrix} 1 & 0 & 0 &\dots & 0 \\ 1 & 0 & 0 &\dots & 0 \\ \dots \\ 1 & 0 & 0 & \dots & 0 \\ 0 & 1 & 0 & \dots & 0 \\ \dots \\ 0 & 1 & 0 & \dots & 0 \\ \vdots \\ 0 & 0 & 0 & \dots & 1 \\ \dots \\ 0 & 0 & 0 & \dots & 1 \end{bmatrix} $$ con $n_1$ filas en el primer bloque, y así sucesivamente. A continuación, $X^T X$ se convierte en una matriz diagonal con el $n_i$ a lo largo de la diagonal, y su diagonal inversa con $1/n_i$ a lo largo de la diagonal. Si ahora sólo puede obtener cinco observaciones del primer grupo, pero el otro $n_2, n_3, \dotsc, n_p$ todo aumenta hasta el infinito con $n$ entonces el límite de $(X^T X)^{-1}$ se convierte en la matriz diagonal $$ \begin{bmatrix} 1/5 & 0 & 0 &\dots \\ 0 & 0 & 0 &\dots \\ 0 & 0 & 0& \dots \\ \vdots \\ 0 & 0 & \dots & 0 \end{bmatrix} $$ que no es la matriz cero.

Así que, en general, podemos asumir el modelo $y_i = x_i^T \beta + \epsilon_i$ donde las perturbaciones $\epsilon_1, \dotsc,\epsilon_n$ son variables aleatorias iid de alguna distribución con media cero y varianza común $\sigma^2$ . En forma de matriz podemos escribir este modelo $ Y= X\beta+\epsilon$ y podemos preguntar por la estimación de algunos contraste del vector de parámetros $\beta$ , digamos que $c^T \beta$ definido por el vector de contraste $c$ . En nuestro ejemplo de anova, la media del grupo $i$ viene dado por el contraste $c^T \beta$ con $c=e_i$ , $e_i$ el vector unitario con un uno en la posición $i$ . Así que la media del primer grupo es el contraste $e_1^T \beta$ . En este ejemplo, la varianza de la estimación (de mínimos cuadrados) del contraste $c^T\beta$ , $c^T \hat{\beta}$ se irá a cero con $n$ para algunos vectores de contraste, y no para otros.

Así que, en general, podemos pedir formas de caracterizar esos vectores de contraste $c$ tal que la varianza límite es cero, donde la varianza del contraste estimado es $$ \text{Var}(c^T \hat{\beta})=\sigma^2 c^T (X^T X)^{-1} c $$ o para las condiciones que garantizan que la varianza límite es cero para todos los vectores de contraste $c$ (que corresponderá a la pregunta original formulada aquí). Una de esas condiciones podría ser que las filas $x_i$ de la matriz de diseño $X$ se obtiene como una muestra iid de alguna distribución común (con algunas condiciones necesarias sobre esa distribución común, ningún componente puede tener varianza cero, por ejemplo).

Hay un artículo dedicado a dar esas condiciones con mucho detalle: Chien-Fu Wu: "Characterizing the consistent directions of least squares estimates", the annals of statistics, 1980, vol 8 No 4 789--801 http://projecteuclid.org/euclid.aos/1176345071

0voto

act Puntos 61

No veo la relación entre los dos elementos de sus preguntas.

Tratemos la primera parte.

Supongamos que $\frac{X'X}{n}$ es un estimador del $p \times p$ matriz de covarianza de los regresores. Asumiendo que el estimador es consistente, se asegura que $\frac{X'X}{n} \to C_x$ como el número de observaciones $n$ crece hasta $\infty$ . $C_x$ denota la matriz de covarianza de los regresores.

La coherencia implica que, para todo $p$ , $k$ tenemos $n^{-1}\sum\limits_{i=1}^{n} x_{ip} x_{ik} \to C_x(p,k)$ como $n\to \infty$ . Supongamos además que $C_x(p,k)<\infty$ . Entonces $\sum\limits_{i=1}^{n} x_{ip} x_{ik} \to \infty$ como $n\to \infty$ . Por lo tanto, $(\sum\limits_{i=1}^{n} x_{ip} x_{ik})^{-1} \to 0$ .

No se trata de que su matriz de varianza-covarianza disminuya. Se trata simplemente de que hay que controlar el número de observaciones para garantizar la coherencia.

-1voto

TerryA Puntos 103

Editar 2018/08/02: no es una respuesta, pero sí una visión.

La respuesta a mi pregunta necesita matrices de bloques. Si los nuevos datos $X_{new}$ están disponibles, éstos pueden "unirse" a los datos antiguos $X$ a una matriz de bloques $X^* = \begin{bmatrix}X \\ X_{new}\end{bmatrix}$ .

Las reglas de multiplicación de las matrices diagonales en bloque dan como resultado $\begin{bmatrix}X' & X_{new}'\end{bmatrix} \begin{bmatrix}X \\ X_{new}\end{bmatrix} = X'X + X_{new} ' X_{new}$ . (Véase, por ejemplo, David A. Harville "Matrix Algebra From a Statisticians's Perspective" (1997) Sección 2.2.)

Con un poco de trabajo (no mostrado aquí) se puede demostrar que $(X^{*}´ X^*)^{-1}$ es Loewner más pequeño que $(X'X)^{-1}$ . Esto significa que $(X'X)^{-1}$ disminuye ( pero no necesariamente a 0 ) como $n$ aumenta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X