30 votos

¿Por qué $SST=SSE + SSR$ ? (Regresión lineal de una variable)

Nota: $SST$ = Suma de cuadrados total, $SSE$ = Suma de errores al cuadrado, y $SSR$ = Suma de cuadrados de regresión. La ecuación del título suele escribirse como:

$$\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2$$

Es una pregunta bastante sencilla, pero busco una explicación intuitiva. Intuitivamente, me parece que $SST\geq SSE+SSR$ tendría más sentido. Por ejemplo, supongamos que el punto $x_i$ tiene el correspondiente valor y $y_i=5$ y $\hat y_i=3$ donde $\hat y_i$ es el punto correspondiente de la recta de regresión. Supongamos también que el valor y medio del conjunto de datos es $\bar y=0$ . Entonces para este punto en particular i, $SST=(5-0)^2=5^2=25$ mientras que $SSE=(5-3)^2=2^2=4$ y $SSR=(3-0)^2=3^2=9$ . Evidentemente, $9+4<25$ . ¿No se generalizaría este resultado a todo el conjunto de datos? No lo entiendo.

0voto

Guest Puntos 1

Si un modelo predice $3$ y el residuo es $2$ porque el valor real es $5$ no parece que la varianza se esté descomponiendo, ya que $3^2 + 2^2 \neq 5^2$ .

Si sólo tienes un punto de datos, tu modelo se ajustaría perfectamente y el residuo sería cero, así que no puedes obtener ese caso por sí solo. Tiene que haber múltiples puntos de datos.

Con múltiples puntos de datos, los residuos no serán todos positivos.

Si el modelo predice 3, un residuo de $+2$ y $-2$ deberían ser igualmente probables. El equilibrio de aumentos y disminuciones da una bonita cancelación:

$$\frac{(3+2)^2 + (3-2)^2}{2} = \frac{25+1}{2} = 13 = 9 + 4 = 3^2 + 2^2 $$

Esta propiedad, que $(a+b)^2 + (a-b)^2 = 2(a^2 + b^2)$ es lo que hace que la descomposición de la varianza funcione, para componentes no correlacionados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X