4 votos

¿La R cuadrada negativa contradice el ssa/sst?

Entiendo por esta pregunta - ¿Cuándo la R al cuadrado es negativa?

que el valor R cuadrado de un modelo de regresión lineal puede ser negativo si el intercepto está restringido. Y esto tiene sentido si se define R al cuadrado como

$$R^2 = 1-\frac{SSE}{SST}$$

Uno dice $SSE>SST$ . Pero entonces, $$SST = SSA + SSE $$ Suma total de cuadrados = Suma de errores al cuadrado + Suma de residuos al cuadrado. Y con esto obtenemos - $$R^2 = \frac{SSA}{SST}$$ Y ahora es difícil imaginar cómo $R^2$ puede ser negativo. ¿No son SSA y SST >0 siempre?

3voto

user243636 Puntos 19

$$ \begin{eqnarray*} SST&=&\sum_{i=1}^n (y_i-\bar y)^2\\&=&\sum_{i=1}^n (y_i-\hat y_i+\hat y_i-\bar y)^2\\&=&\sum_{i=1}^n (y_i-\hat y_i)^2+2\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)+\sum_{i=1}^n(\hat y_i-\bar y)^2\\&=&SSE+SSR+2\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y) \end{eqnarray*} $$ Cuando una intercepción( $\beta_0$ ) se incluye en la regresión lineal, $$\hat{y}_i = \beta_0 + \beta_1x_{i,1} + \beta_2x_{i,2} +…+ \beta_px_{i,p}$$ Se puede demostrar que $\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)=0$ aquí

Así que $$ SST=SSE+SSR+2\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)=SSE+SSR $$

$$ R^2 = 1-\frac{SSE}{SST}=\frac{SSR}{SST}\geqslant0 $$ Sin embargo, cuando no se incluye un intercepto en la regresión lineal, $\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)\neq0$

Si $\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)<0$ , $SST=SSE+SSR+2\sum_{i=1}^n(y_i-\hat y_i)(\hat y_i-\bar y)$ puede ser inferior a $SSE$

En este caso, $$ \frac{SSE}{SST}>1 $$ $$ R^2 = 1-\frac{SSE}{SST}<0 $$

2voto

Alan Puntos 7273

El punto de la respuesta aceptada a su pregunta vinculada ilustra la respuesta a esto.

Si el modelo de regresión es tan malo (por ejemplo, debido a un intercepto tontamente restringido, pero hay otras causas potenciales) que un predictor constante (es decir, una línea horizontal, con un intercepto igual a la media de los datos observados) se ajustaría mejor a los datos observados, entonces la suma de cuadrados de los errores superará la suma de cuadrados calculada a partir de los datos originales (de la diferencia de la media), y se encontrará $R^2$ yendo en negativo.

En este caso, es posible que quiera pensar si la expresión $SST = SSA + SSE$ tiene sentido cuando el modelo es tan malo que $SSE \gt SST$ y $SST$ representa la suma de cuadrados calculada a partir de los datos originales.

La regresión lineal simple sin restricciones evita este problema, ya que sólo minimiza $SSE$ y así $SST$ es un límite superior de $SSE$

2voto

Monique Puntos 1

Encontré una prueba para SST=SSE+SSR en otro hilo (enlace abajo). La prueba se basa en dos ecuaciones derivadas de la regresión por mínimos cuadrados. Si su regresión no se basara en LS, esas condiciones se violarían y la ecuación SST=SSE+SSR no se mantendría, lo que elimina la contradicción de un R-cuadrado negativo.

https://math.stackexchange.com/questions/709419/prove-sst-ssessr

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X