Entiendo que $ R^2 = \frac{\text{SSR}}{\text{SST}}= 1- \frac{SSE}{SST}$, sin embargo, no entiendo qué cambia cuando se agregan más variables predictivas y cómo $R^2$ sufre en consecuencia. ¿Alguien me puede aclarar?
Respuestas
¿Demasiados anuncios?Supongamos que tenemos dos modelos: $$ Y = \beta_0 + \beta_1 X_1 + \varepsilon \etiqueta{M1} $$ y $$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \varepsilon \etiqueta{M2} $$ Esto significa que tenemos
$$ RSS_1 = \sum_{i=1}^n (Y_i - \hat \beta_0 - \hat \beta_1^{(1)} X_1)^2 $$
y
$$ RSS_2 = \sum_{i=1}^n (Y_i - \hat \beta_0 - \hat \beta_1^{(2)} X_1 - \hat \beta_2 X_2)^2. $$
Modelo de $M2$ contiene el modelo de $M1$ como un caso especial, así que no hay manera de que $RSS_1 < RSS_2$: podemos establecer $\hat \beta_2 = 0$ $\hat \beta_1^{(1)} = \hat \beta_1^{(2)}$ con el fin de obtener $RSS_1 = RSS_2$. Mucho más probable es que $RSS_2 < RSS_1$ porque tenemos un parámetro adicional para poder encajar los datos más de cerca.
Esto revela el gran problema con la ajustadas $R^2$: no hay penalización por la complejidad del modelo. Una más complicada modelo casi siempre se ajusten a los datos mejor de lo $R^2$ prefieren este modelo, incluso si la complejidad extra es sólo el modelado de ruido. Es por eso que otros métodos como el ajustado $R^2$ (como se mencionó en Antoni Parellada de la respuesta) y $AIC$ son populares, ya que estos toman en cuenta tanto el ajuste del modelo a los datos, mientras que también penalizar a la complejidad del modelo.
Es el resultado del proceso de ajuste que se lleva a cabo en la regresión por MCO. A cada variable se analizó respecto a todos los demás, y lo que queda inexplicable (residuos). En cierto modo, el proceso de regresión busca explicaciones en la varianza de los datos, pero no realmente de excel a contar lo que es señal y ¿qué es el ruido.
De hecho, si solo se incluyen las variables compuesto de ruido aleatorio, todavía se podía ver cómo sería progresivo de sobreajuste de este ruido en una engañosa intento de explicar la variabilidad en el "dependiente" de la variable.
Hice esta prueba en aquí, y se representa el efecto resultante en el $RSS$ como el número de no-sensical variables aumenta:
Esta es la razón por la que es recomendable utilizar ajustado $R^2$ en lugar de $R^2$ a juzgar si es una buena idea para incluir más variables en un modelo.