$R^2$ puede ser negativo, simplemente significa que:
- El modelo se ajusta muy mal a tus datos
- No configuraste una intersección
Para las personas que dicen que $R^2$ está entre 0 y 1, esto no es cierto. Aunque un valor negativo para algo con la palabra 'al cuadrado' en ella podría sonar como si rompiera las reglas de las matemáticas, puede ocurrir en un modelo $R^2$ sin una intersección. Para entender por qué, necesitamos ver cómo se calcula $R^2$.
Esto es un poco largo - Si quieres la respuesta sin entenderlo, entonces salta al final. De lo contrario, he intentado escribir esto en palabras simples.
Primero, definamos 3 variables: $RSS$, $TSS$ y $ESS$.
Calculando RSS:
Para cada variable independiente $x$, tenemos la variable dependiente $y$. Trasamos una línea lineal de mejor ajuste, que predice el valor de $y$ para cada valor de $x$. Llamemos a los valores de $y$ que la línea predice $\hat y$. El error entre lo que tu línea predice y lo que realmente es el valor de $y$ se puede calcular por resta. Todas estas diferencias se elevan al cuadrado y se suman, lo que da como resultado la Suma Residual de Cuadrados $RSS$.
Poniéndolo en una ecuación, $RSS = \sum (y - \hat y)^2$
Calculando TSS:
Podemos calcular el valor promedio de $y$, que se llama $\bar y$. Si trazamos $\bar y$, es solo una línea horizontal a través de los datos porque es constante. Lo que podemos hacer con ella, de todos modos, es restar $\bar y$ (el valor promedio de $y$) de cada valor real de $y$. El resultado se eleva al cuadrado y se suma, lo que da la suma total de cuadrados $TSS$.
Poniéndolo en una ecuación $TSS = \sum (y - \bar y)^2$
Calculando ESS:
Las diferencias entre $\hat y$ (los valores de $y$ predichos por la línea) y el valor promedio $\bar y$ se elevan al cuadrado y se suman. Esto es la suma explicada de cuadrados, que es igual a $\sum (\hat y - \bar y)^2$
Recuerda, $TSS = \sum (y - \bar y)^2$, pero podemos agregar un $ + \hat y - \hat y$ en ella, porque se cancela a sí mismo. Por lo tanto, $TSS = \sum (y - \hat y + \hat y -\bar y)^2$. Expandiendo estos corchetes, obtenemos $TSS = \sum (y - \hat y)^2 + 2* \sum (y - \hat y)(\hat y - \bar y) + \sum (\hat y - \bar y)^2$
Cuando, y solo cuando la línea se traza con una intersección, lo siguiente siempre es cierto: $2* \sum (y - \hat y)(\hat y - \bar y) = 0$. Por lo tanto, $TSS = \sum (y - \hat y)^2 + \sum (\hat y - \bar y)^2$, lo que puedes notar que simplemente significa que $TSS = RSS + ESS$. Si dividimos todos los términos por $TSS$ y reorganizamos, obtenemos $1 - \frac {RSS}{TSS} = \frac {ESS}{TSS}$.
Aquí está la parte importante:
$R^2$ se define como cuánta de la varianza es explicada por tu modelo (cuán bueno es tu modelo). En forma de ecuación, eso es $R^2 = 1 - \frac {RSS}{TSS}$. ¿Se te hace familiar? Cuando la línea se traza con una intersección, podemos sustituir esto como $R^2 = \frac {ESS}{TSS}$. Dado que tanto el numerador como el denominador son sumas de cuadrados, $R^2$ debe ser positivo.
Pero
Cuando no especificamos una intersección, $2* \sum (y - \hat y)(\hat y - \bar y)$ no necesariamente es igual a $0$. Esto significa que $TSS = RSS + ESS + 2* \sum (y - \hat y)(\hat y - \bar y)$.
Dividiendo todos los términos por $TSS$, obtenemos $1 - \frac{RSS}{TSS} = \frac {ESS + 2* \sum (y - \hat y)(\hat y - \bar y)}{TSS}$.
Finalmente, sustituimos para obtener $R^2 = \frac {ESS + 2* \sum (y - \hat y)(\hat y - \bar y)}{TSS}$. Esta vez, el numerador tiene un término en él que no es una suma de cuadrados, por lo que puede ser negativo. Esto haría que $R^2$ sea negativo. ¿Cuándo sucedería esto? $2* \sum (y - \hat y)(\hat y - \bar y)$ sería negativo cuando $y - \hat y$ sea negativo y $\hat y - \bar y$ sea positivo, o viceversa. Esto ocurre cuando la línea horizontal de $\bar y$ realmente explica los datos mejor que la línea de mejor ajuste.
Aquí tienes un ejemplo exagerado de cuando $R^2$ es negativo (Fuente: University of Houston Clear Lake)
En resumen:
- Cuando $R^2 < 0$, una línea horizontal explica los datos mejor que tu modelo.
También preguntaste sobre $R^2 = 0$.
- Cuando $R^2 = 0$, una línea horizontal explica los datos igual de bien que tu modelo.
Te felicito por pasar por todo eso. Si encontraste esto útil, también deberías votar a favor de la respuesta de fcop aquí al que tuve que recurrir, porque ha pasado un tiempo.
6 votos
Esto significa que has hecho algo mal ya que, por definición, $R^2$ se encuentra en $[0, 1]$. $R^2$ ajustado, por otro lado, puede ser negativo, lo que puedes asumir con seguridad significa que tu modelo es muy poco adecuado para los datos. Cuando $R^2$ es exactamente cero, esto significa que $\bar{y}$ es igual de buen predictor de $y$ que la propia línea de regresión de mínimos cuadrados.
1 votos
Esto es posible para una regresión sin un intercepto ver por ejemplo stats.stackexchange.com/questions/164586/…
0 votos
Y también stats.stackexchange.com/questions/171240/…
0 votos
Relacionado: ¿Cuándo es R cuadrado negativo?
0 votos
@gung Estaba a punto de sugerir que esto posiblemente fuera un duplicado de esa pregunta ... ¿crees que son suficientemente distintas? (Si acaso, esta pregunta parece más clara que la otra porque no tiene la distracción de la sintaxis de SPSS, pero las respuestas en el otro hilo son muy buenas y parecen cubrir esta pregunta también.)
0 votos
@Silverfish, podrían ser duplicados (inicialmente estaba pensando en esas líneas), pero "¿cuándo?" y "¿qué significa?" son preguntas teóricamente distintas (aunque terminen siendo similares). Tengo la tendencia a dejar abierta la pregunta, pero no tengo una opinión fuerte.
0 votos
@gung: Estoy abierto a eso. Estaba buscando una solución e intentando aclarar las cosas.