10 votos

Regresión lineal: ¿*Por qué* puedes hacer particiones de sumas de cuadrados?

Esta publicación se refiere a un modelo de regresión lineal bivariado, $Y_i = \beta_0 + \beta_1x_i$ . Siempre he tomado la partición de la suma total de cuadrados (SSTO) en la suma de cuadrados para el error (SSE) y la suma de cuadrados para el modelo (SSR) por fe, pero una vez que comencé a pensar realmente sobre ello, no entiendo por qué funciona...

La parte que entiendo:

$y_i$: Un valor observado de y

$\bar{y}$: La media de todos los $y_i$ observados

$\hat{y}_i$: El valor ajustado/predicho de y para la x de una observación dada

$y_i - \hat{y}_i$: Residual/error (si se eleva al cuadrado y se suma para todas las observaciones, esto es SSE)

$\hat{y}_i - \bar{y}$: Cuánto difiere el valor ajustado del modelo de la media (si se eleva al cuadrado y se suma para todas las observaciones, esto es SSR)

$y_i - \bar{y}$: Cuánto difiere un valor observado de la media (si se eleva al cuadrado y se suma para todas las observaciones, esto es SSTO).

Puedo entender por qué, para una sola observación, sin elevar nada al cuadrado, $(y_i - \bar{y}) = (\hat{y}_i - \bar{y}) + (y_i - \hat{y}_i)$. Y puedo entender por qué, si quieres sumar las cosas sobre todas las observaciones, debes elevarlas al cuadrado o sumarán 0.

La parte que no entiendo es por qué $(y_i - \bar{y})^2 = (\hat{y}_i - \bar{y})^2 + (y_i - \hat{y}_i)^2$ (por ejemplo, SSTO = SSR + SSE). Parece ser que si tienes una situación donde $A = B + C$, entonces $A^2 = B^2 + 2BC + C^2$, no $A^2 = B^2 + C^2$. ¿Por qué no es ese el caso aquí?

10voto

Martin Robins Puntos 1893

 

Parece ser que si tienes una situación donde $A = B + C$, entonces   $A^2 = B^2 + 2BC + C^2$, no $A^2 = B^2 + C^2$. ¿Por qué no es ese el caso aquí?

Conceptualmente, la idea es que $BC = 0$ porque $B$ y $C$ son ortogonales (es decir, son perpendiculares).


En el contexto de regresión lineal aquí, los residuos $\epsilon_i = y_i - \hat{y}_i$ son ortogonales a la previsión sin media $\hat{y}_i - \bar{y}$. La previsión de la regresión lineal crea una descomposición ortogonal de $\mathbf{y}$ en un sentido similar a como $(3,4) = (3,0) + (0,4)$ es una descomposición ortogonal.

Versión de Álgebra Lineal:

Sea:

$$\mathbf{z} = \begin{bmatrix} y_1 - \bar{y} \\ y_2 - \bar{y}\\ \ldots \\ y_n - \bar{y} \end{bmatrix} \quad \quad \mathbf{\hat{z}} = \begin{bmatrix} \hat{y}_1 - \bar{y} \\ \hat{y}_2 - \bar{y} \\ \ldots \\ \hat{y}_n - \bar{y} \end{bmatrix} \quad \quad \boldsymbol{\epsilon} = \begin{bmatrix} y_1 - \hat{y}_1 \\ y_2 - \hat{y}_2 \\ \ldots \\ y_n - \hat{y}_n \end{bmatrix} = \mathbf{z} - \hat{\mathbf{z}}$$

La regresión lineal (con una constante incluida) descompone $\mathbf{z}$ en la suma de dos vectores: una previsión $\hat{\mathbf{z}}$ y un residual $\boldsymbol{\epsilon}$

$$ \mathbf{z} = \hat{\mathbf{z}} + \boldsymbol{\epsilon} $$

Sea $\langle .,. \rangle$ el producto punto. (Más generalmente, $\langle X,Y \rangle$ puede ser el producto interno $E[XY]$.)

\begin{align*} \langle \mathbf{z} , \mathbf{z} \rangle &= \langle \hat{\mathbf{z}} + \boldsymbol{\epsilon}, \hat{\mathbf{z}} + \boldsymbol{\epsilon} \rangle \\ &= \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + 2 \langle \hat{\mathbf{z}},\boldsymbol{\epsilon} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle \\ &= \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle \end{align*}

Donde la última línea sigue del hecho de que $\langle \hat{\mathbf{z}},\boldsymbol{\epsilon} \rangle = 0$ (es decir, que $\hat{\mathbf{z}}$ y $\boldsymbol{\epsilon} = \mathbf{z}- \hat{\mathbf{z}}$ son ortogonales). Puedes demostrar que $\hat{\mathbf{z}}$ y $\boldsymbol{\epsilon}$ son ortogonales basado en cómo la regresión de mínimos cuadrados ordinarios construye $\hat{\mathbf{z}}$.

$\hat{\mathbf{z}}$ es la proyección lineal de $\mathbf{z}$ sobre el subespacio definido por el espacio lineal de los regresores $\mathbf{x}_1$, $\mathbf{x}_2$, etc.... El residual $\boldsymbol{\epsilon}$ es ortogonal a todo ese subespacio por lo tanto $\hat{\mathbf{z}}$ (que yace en el espacio de $\mathbf{x}_1$, $\mathbf{x}_2$, etc...) es ortogonal a $\boldsymbol{\epsilon}$.


Nótese que como definí $\langle .,.\rangle$ como el producto punto, $\langle \mathbf{z} , \mathbf{z} \rangle = \langle \hat{\mathbf{z}}, \hat{\mathbf{z}} \rangle + \langle \boldsymbol{\epsilon},\boldsymbol{\epsilon} \rangle $ es simplemente otra forma de escribir $\sum_i (y_i - \bar{y})^2 = \sum_i (\hat{y}_i - \bar{y})^2 + \sum_i (y_i - \hat{y}_i)^2$ (es decir, SSTO = SSR + SSE)

9voto

Gaz Davidson Puntos 2064

El punto es mostrar que ciertos vectores son ortogonales y luego usar el teorema de Pitágoras.

Consideremos la regresión lineal multivariable $Y = X\beta + \epsilon$. Sabemos que el estimador OLS es $\hat{\beta} = (X^tX)^{-1}X^tY$. Ahora consideremos la estimación

$\hat{Y} = X\hat{\beta} = X(X^tX)^{-1}X^tY = HY$ (la matriz H también es llamada la matriz "hat")

donde $H$ es una matriz de proyección ortogonal de Y sobre $S(X)$. Ahora tenemos

$Y - \hat{Y} = Y - HY = (I - H)Y

donde $(I-H)$ es una matriz de proyección sobre el complemento ortogonal de $S(X)$, que es $S^{\bot}(X)$. Así que sabemos que $Y - \hat{Y}$ y $\hat{Y}$ son ortogonales.

Ahora consideremos un submodelo $Y = X_0\beta_0 + \epsilon

donde $X = [X_0 | X_1 ]$ y de manera similar tenemos el estimador OLS y la estimación $\hat{\beta_0}$ y $\hat{Y_0}$ con matriz de proyección $H_0$ sobre $S(X_0)$. De manera similar, tenemos que $Y - \hat{Y_0}$ y $\hat{Y_0}$ son ortogonales. Y ahora

$\hat{Y} - \hat{Y_0} = HY - H_0Y = HY - H_0HY = (I - H_0)HY

donde nuevamente $(I-H_0)$ es una matriz de proyección ortogonal en el complemento de $S(X_0)$, que es $S^{\bot}(X_0)$. Por lo tanto, tenemos ortogonalidad de $\hat{Y} - \hat{Y_0}$ y $\hat{Y_0}$. Así que al final tenemos

$||Y - \hat{Y}||^2 = ||Y||^2 - ||\hat{Y}||^2 = ||Y - \hat{Y_0}||^2 + ||\hat{Y_0}||^2 - ||\hat{Y} - \hat{Y_0}||^2 - ||\hat{Y_0}||^2

y finalmente $||Y - \hat{Y_0}||^2 = ||Y - \hat{Y}||^2 + ||\hat{Y} - \hat{Y_0}||^2

Por último, la media $\bar{Y}$ es simplemente $\hat{Y_0}$ cuando consideramos el modelo nulo $Y = \beta_0 + e$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X