47 votos

¿Por qué es RSS distribuidos de la chi cuadrado de n-p?

Me gustaría entender por qué, bajo el modelo OLS, el RSS (suma de cuadrados residual) se distribuye de la chi cuadrado de n-p (siendo p el número de parámetros en el modelo, n el número de observaciones).

Pido disculpas por preguntar tal una pregunta básica, pero me parece que no sería capaz de encontrar la respuesta en línea (o en mi, más orientada a la aplicación, los libros de texto).

63voto

ocram Puntos 9992

Considero que el siguiente modelo lineal: ${y} = X \beta + \epsilon$.

El vector de residuos se estima por

$$\hat{\epsilon} = y - X \hat{\beta} = (I - X (X X)^{-1} X') y = P y = Q (X \beta + \epsilon) = Q \epsilon$$

donde $Q = I - X (X'X)^{-1} X'$.

Observar que $\textrm{tr}(Q) = n - p$ (la traza es invariante bajo permutación cíclica) y que $Q'=Q=Q^2$. Los autovalores de a $Q$ por lo tanto $0$ $1$ (algunos detalles más abajo). Por lo tanto, existe una matriz unitaria $V$ tal que (matrices son diagonalizable por unitario matrices si y sólo si son normales.)

$$V'QV = \Delta = \textrm{diag}(\underbrace{1, \ldots, 1}_{n-p \textrm{ times}}, \underbrace{0, \ldots, 0}_{p \textrm{ times}})$$

Ahora, vamos a $K = V' \hat{\epsilon}$.

Desde $\hat{\epsilon} \sim N(0, \sigma^2 Q)$, $K \sim N(0, \sigma^2 \Delta)$ y, por tanto,$K_{n-p+1}=\ldots=K_n=0$. Así

$$\frac{\|K\|^2}{\sigma^2} = \frac{\|K^{\star}\|^2}{\sigma^2} \sim \chi^2_{n-p}$$

con $K^{\star} = (K_1, \ldots, K_{n-p})'$.

Además, como $V$ es una matriz unitaria, también tenemos

$$\|\hat{\epsilon}\|^2 = \|K\|^2=\|K^{\star}\|^2$$

Así

$$\frac{\textrm{RSS}}{\sigma^2} \sim \chi^2_{n-p}$$

Finalmente, se observa que este resultado implica que

$$E\left(\frac{\textrm{RSS}}{n-p}\right) = \sigma^2$$


Desde $Q^2 - Q =0$, el polinomio mínimo de a $Q$ divide el polinomio $z^2 - z$. Así, los autovalores de a $Q$ entre $0$$1$. Desde $\textrm{tr}(Q) = n-p$ es también la suma de los autovalores multiplicada por su multiplicidad, necesariamente, tiene que $1$ es un autovalor con multiplicidad $n-p$ y el cero es un autovalor con multiplicidad $p$.

12voto

Ηλίας Puntos 109

En mi humilde opinión, la notación matricial $Y=X\beta+\epsilon$ complica las cosas. Puro espacio vectorial lenguaje es más limpio. El modelo puede ser escrito $\boxed{Y=\mu + \sigma G}$ donde $G$ tiene el estándar normal de distribución en $\mathbb{R}^n$ $\mu$ se supone que pertenecen a un subespacio vectorial $W \subset \mathbb{R}^n$.

Ahora el lenguaje de la geometría elemental entra en juego. El de mínimos cuadrados estimador $\hat\mu$ $\mu$ no es nada sino $P_WY$: la proyección ortogonal de la observables $Y$ sobre el espacio $W$ que $\mu$ se supone que pertenecen. El vector de residuos es $P^\perp_WY$: proyección en el complemento ortogonal $W^\perp$$W$$\mathbb{R^n}$. La dimensión de $W^\perp$$\dim(W^\perp)=n-\dim(W)$.

Finalmente, $$P^\perp_WY = P^\perp_W(\mu + \sigma G) = 0 + \sigma P^\perp_WG,$$ and $P^\perp_WG$ has the standard normal distribution on $W^\asesino$, hence its squared norm has the $\chi^2$ distribution with $\dim(W^\asesino)$ grados de libertad.

Esta demostración se utiliza solamente un teorema, en realidad, una definición-teorema:

Definición y teorema. Un vector aleatorio en $\mathbb{R}^n$ tiene la distribución normal estándar en un espacio vectorial $U \subset \mathbb{R}^n$ si se toma sus valores en $U$ y sus coordenadas en un ($\iff$ en todos) ortonormales base de $U$ son independientes uno-dimensional estándar de las distribuciones normales

(a partir de esta definición-teorema de Cochran del teorema es tan evidente que no vale la pena estado)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X