Esta publicación se refiere a un modelo de regresión lineal bivariado, $Y_i = \beta_0 + \beta_1x_i$ . Siempre he tomado la partición de la suma total de cuadrados (SSTO) en la suma de cuadrados para el error (SSE) y la suma de cuadrados para el modelo (SSR) por fe, pero una vez que comencé a pensar realmente sobre ello, no entiendo por qué funciona...
La parte que sí entiendo:
$y_i$: Un valor observado de y
$\bar{y}$: La media de todos los $y_i$ observados
$\hat{y}_i$: El valor ajustado/predicho de y para la x de una observación dada
$y_i - \hat{y}_i$: Residual/error (si se eleva al cuadrado y se suma para todas las observaciones, esto es SSE)
$\hat{y}_i - \bar{y}$: Cuánto difiere el valor ajustado del modelo de la media (si se eleva al cuadrado y se suma para todas las observaciones, esto es SSR)
$y_i - \bar{y}$: Cuánto difiere un valor observado de la media (si se eleva al cuadrado y se suma para todas las observaciones, esto es SSTO).
Puedo entender por qué, para una sola observación, sin elevar nada al cuadrado, $(y_i - \bar{y}) = (\hat{y}_i - \bar{y}) + (y_i - \hat{y}_i)$. Y puedo entender por qué, si quieres sumar las cosas sobre todas las observaciones, debes elevarlas al cuadrado o sumarán 0.
La parte que no entiendo es por qué $(y_i - \bar{y})^2 = (\hat{y}_i - \bar{y})^2 + (y_i - \hat{y}_i)^2$ (por ejemplo, SSTO = SSR + SSE). Parece ser que si tienes una situación donde $A = B + C$, entonces $A^2 = B^2 + 2BC + C^2$, no $A^2 = B^2 + C^2$. ¿Por qué no es ese el caso aquí?