13 votos

Por qué traza de $I−X(X′X)^{-1}X′$ $n-p$ en el de mínimos cuadrados de la regresión cuando el vector de parámetros $\beta$ es de p dimensiones?

En el modelo de ${y} = X \beta + \epsilon$, se podría estimar $\beta$ con el modo normal de la ecuación:

$$\hat{\beta} = (X'X)^{-1}X'y,$$ and we could get $$\hat{y} = X \hat{\beta}.$$

El vector de residuos se estima por

$$\hat{\epsilon} = y - X \hat{\beta} = (I - X (X X)^{-1} X') y = P y = Q (X \beta + \epsilon) = Q \epsilon,$$

donde $$Q = I - X (X'X)^{-1} X'.$$

Mi pregunta es cómo llegar a la conclusión de $$\textrm{tr}(Q) = n - p.$$

19voto

Derek Swingley Puntos 3851

@Dougal ya ha dado una respuesta, pero aquí es otro, un poco más simple.

En primer lugar, vamos a utilizar el hecho de que $\newcommand{\tr}{\mathrm{tr}}\tr(A - B) = \tr(A) - \tr(B)$. Así, obtenemos: $$\tr(Q) = \tr(I) - \tr(X(X'X)^{-1}X').$$ Now $I$ is an $n \times n$ identity matrix, so $\tr(I) = n$. Now let's use the fact that $\tr(AB) = \tr(BA)$, that is, the trace is invariant under cyclic permutations. So, we have: $$\tr(Q) = n - \tr((X'X)^{-1}(X'X)).$$ When we multiply $(X X)^{-1}$ with $(X X)$, we get a $p \times p$ identity matrix, whose trace is $p$. So, we get: $$\tr(Q) = n - p.$$

12voto

jldugger Puntos 7490

La conclusión meramente cuenta las dimensiones de los espacios vectoriales. Sin embargo, no es cierto en general.

La mayoría de las propiedades básicas de la multiplicación de la matriz muestran que la transformación lineal representada por la matriz $\mathbb{H}=X(X^\prime X)^{-}X^\prime$ satisface

$$\mathbb{H}^2 = \left(X(X^\prime X)^{-}X^\prime\right)^2=X(X^\prime X)^{-}(X^\prime X)(X^\prime X)^{-}X^\prime=\mathbb{H},$$

exhibe como una proyección del operador. Por lo tanto, su complemento

$$\mathbb{Q} = 1 - \mathbb{H}$$

(como se da en la pregunta) también es una proyección del operador. La traza de $\mathbb{H}$ es su rango $h$ (ver más abajo), donde la traza de $\mathbb{Q}$ es igual a $n-h$.

A partir de su fórmula es evidente que $\mathbb{H}$ es la matriz asociada a la composición de dos transformaciones lineales $$\mathbb{J}=(X^\prime X)^{-}X^\prime$$ and $X$ itself. The first ($\mathbb{J}$) transforms the $n$-vector $y$ into the $p$-vector $\hat\beta$. The second ($X$) is a transformation from $\mathbb{R}^p$ to $\mathbb{R}^n$ given by $\sombrero y = X\hat \beta$. Its rank cannot exceed the smaller of those two dimensions, which in a least squares setting is always $p$ (but could be less than $p$, whenever $\mathbb{J}$ is not of full rank). Consequently the rank of the composition $\mathbb{H}=X\mathbb{J}$ cannot exceed the rank of $X$. La conclusión, entonces, es

$\text{tr} (\mathbb{Q}) = n-p$ si y sólo si $\mathbb{J}$ es de rango completo; y, en general,$n \ge \text{tr} (\mathbb{Q}) \ge n-p$. En el primer caso el modelo se dice que es "identificable" (para los coeficientes de $\beta$).

$\mathbb{J}$ va a ser de rango completo si y sólo si $X^\prime X$ es invertible.


Interpretación geométrica

$\mathbb{H}$ representa la proyección ortogonal de a $n$-vectores $y$ (que representa a la "respuesta" o "variable dependiente") en el espacio generado por las columnas de a $X$ (que representa a las "variables independientes" o "variables de control"). La diferencia $\mathbb{Q}=1-\mathbb{H}$ muestra cómo descomponer cualquier $n$-vector $y$ en una suma de vectores $$y = \mathbb{H}(y) + \mathbb{Q}(y),$$ where the first can be "predicted" from $X$ and the second is perpendicular to it. When the $p$ columns of $X$ generate a $p$-dimensional space (that is, are not collinear), the rank of $\mathbb{H}$ is $p$ and the rank of $\mathbb{Q}$ is $n p$, reflecting the $n-p$ dimensiones adicionales de la variación en la respuesta que no están representadas dentro de las variables independientes. La traza se da una fórmula calculada para estas dimensiones.


Álgebra Lineal Fondo

Un operador de proyección en un espacio vectorial $V$ (como $\mathbb{R}^n$) es una transformación lineal $\mathbb{P}:V\to V$ (es decir, un endomorfismo de $V$) tal que $\mathbb{P}^2=\mathbb{P}$. Esto hace que su complementar $\mathbb{Q}=1-\mathbb{P}$ un operador de proyección, también, porque

$$\mathbb{Q}^2 = \left(1 - \mathbb{P}\right)^2 = 1 - 2\mathbb{P} + \mathbb{P}^2 = 1-2\mathbb{P}+\mathbb{P} = \mathbb{Q}.$$

Todas las proyecciones de la revisión de cada elemento de sus imágenes, para siempre $v\in \text{Im}(\mathbb{P})$ podemos escribir $v = \mathbb{P}(w)$ algunos $w\in V$, de donde $$w = \mathbb{P}(v) = \mathbb{P}^2(v) = \mathbb{P}(\mathbb{P}(v)) = \mathbb{P}(w).$$

Asociados con cualquier endomorfismo $\mathbb{P}$ $V$ son dos subespacios: su núcleo $$\text{ker}(\mathbb{P}) = \{v\in v\,|\, \mathbb{P}(v)=0\}$$ and its image $$\text{Im}(\mathbb{P}) = \{v\in v\,|\, \exists_{w\in V} \mathbb{P}(w)=v\}.$$ Every vector $v\V$ can be written in the form $$v = w+u$$ where $w\ \ en \text{Im}(\mathbb{P})$ and $u\en \text{Ker}(\mathbb{P})$. We may therefore construct a basis $E \copa F$ for $V$ for which $E \subconjunto \text{Ker}(\mathbb{P})$ and $F \subconjunto \text{Im}(\mathbb{P})$. When $V$ is finite-dimensional, the matrix of $\mathbb{P}$ in this basis will therefore be in block-diagonal form, with one block (corresponding to the action of $\mathbb{P}$ on $E$) all zeros and the other (corresponding to the action of $\mathbb{P}$ on $F$) equal to the $f$ by $f$ identity matrix, where the dimension of $F$ is $f$. The trace of $\mathbb{P}$ is the sum of the values on the diagonal and therefore must equal $f\veces 1 = f$. This number is the rank of $\mathbb{P}$: la dimensión de su imagen.

La traza de $1-\mathbb{P}$ es igual a la traza de $1$ (igual a $n$, la dimensión de la $V$) menos la traza de $\mathbb{P}$.

Estos resultados pueden resumirse en la afirmación de que la traza de una proyección es igual a su rango.

6voto

Bauna Puntos 176

$\newcommand\R{\mathbb R}$Asume que $n \le p$ y $X$ es de rango completo.

Considerar el compacto de la descomposición en valores singulares $X = U \Sigma V^T$ donde $\Sigma \in \R^{p \times p}$ es diagonal y $U \in \R^{n \times p}, V \in \R^{p \times p}$ ha $U^T U = V^T V = V V^T = I_p$ (pero tenga en cuenta $U U^T$ es el rango que en la mayoría de las $p$, por lo que no puede ser $I_n$). Entonces

\begin{align} X (X^T X)^{-1} X^T &= U \Sigma V^T (V \Sigma U^T U \Sigma V^T)^{-1} V \Sigma U^T \\&= U \Sigma V^T (V \Sigma^2 V^T)^{-1} V \Sigma U^T \\&= U \Sigma V^T V \Sigma^{-2} V^T V \Sigma U^T \\&= U U^T .\end{align}

Ahora, existe una matriz $U_2 \in \R^{n \times n-p}$ tal que $U_n = \begin{bmatrix}U & U_2\end{bmatrix}$ es unitaria. Podemos escribir \begin{align} I - X (X^T X)^{-1} X^T &= U_n U_n^T - U U^T \\&= U_n \left( I_n - \begin{bmatrix}I_p & 0 \\ 0 & 0\end{bmatrix} \right) U_n^T \\&= U_n \begin{bmatrix}0 & 0 \\ 0 & I_{n-p}\end{bmatrix} U_n^T .\end{align} Este formulario muestra que $Q$ es positivo semidefinite, y puesto que es válido svd y los valores propios son los cuadrados de los valores propios de un cuadrado simétrico de la matriz, también nos dice que $Q$ tiene los autovalores 1 (de multiplicidad $n-p$) y 0 (de multiplicidad $p$). Así, el seguimiento de $Q$$n-p$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X