¿Por qué crece $R^2$ cuando se agregan variables predictivas más a un modelo?

Question

¿Por qué crece $R^2$ cuando se agregan variables predictivas más a un modelo?

Preguntado el 16 de Abril, 2016: Cuando se hizo la pregunta
132 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Entiendo que $ R^2 = \frac{\text{SSR}}{\text{SST}}= 1- \frac{SSE}{SST}$, sin embargo, no entiendo qué cambia cuando se agregan más variables predictivas y cómo $R^2$ sufre en consecuencia. ¿Alguien me puede aclarar?

Preguntado el 16 de Abril, 2016 por zsimpson

Answer 1

2 Respuestas

Answer 2

13voto

Paulius Puntos 369

Supongamos que tenemos dos modelos: $$ Y = \beta_0 + \beta_1 X_1 + \varepsilon \etiqueta{M1} $$ y $$ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \varepsilon \etiqueta{M2} $$ Esto significa que tenemos

$$ RSS_1 = \sum_{i=1}^n (Y_i - \hat \beta_0 - \hat \beta_1^{(1)} X_1)^2 $$

y

$$ RSS_2 = \sum_{i=1}^n (Y_i - \hat \beta_0 - \hat \beta_1^{(2)} X_1 - \hat \beta_2 X_2)^2. $$

Modelo de $M2$ contiene el modelo de $M1$ como un caso especial, así que no hay manera de que $RSS_1 < RSS_2$: podemos establecer $\hat \beta_2 = 0$ $\hat \beta_1^{(1)} = \hat \beta_1^{(2)}$ con el fin de obtener $RSS_1 = RSS_2$. Mucho más probable es que $RSS_2 < RSS_1$ porque tenemos un parámetro adicional para poder encajar los datos más de cerca.

Esto revela el gran problema con la ajustadas $R^2$: no hay penalización por la complejidad del modelo. Una más complicada modelo casi siempre se ajusten a los datos mejor de lo $R^2$ prefieren este modelo, incluso si la complejidad extra es sólo el modelado de ruido. Es por eso que otros métodos como el ajustado $R^2$ (como se mencionó en Antoni Parellada de la respuesta) y $AIC$ son populares, ya que estos toman en cuenta tanto el ajuste del modelo a los datos, mientras que también penalizar a la complejidad del modelo.

Respondido el 16 de Abril, 2016 por Paulius (369 Puntos )

Answer 3

6voto

Antoni Parellada Puntos 2762

Es el resultado del proceso de ajuste que se lleva a cabo en la regresión por MCO. A cada variable se analizó respecto a todos los demás, y lo que queda inexplicable (residuos). En cierto modo, el proceso de regresión busca explicaciones en la varianza de los datos, pero no realmente de excel a contar lo que es señal y ¿qué es el ruido.

De hecho, si solo se incluyen las variables compuesto de ruido aleatorio, todavía se podía ver cómo sería progresivo de sobreajuste de este ruido en una engañosa intento de explicar la variabilidad en el "dependiente" de la variable.

Hice esta prueba en aquí, y se representa el efecto resultante en el $RSS$ como el número de no-sensical variables aumenta:

Esta es la razón por la que es recomendable utilizar ajustado $R^2$ en lugar de $R^2$ a juzgar si es una buena idea para incluir más variables en un modelo.

Respondido el 16 de Abril, 2016 por Antoni Parellada (2762 Puntos )

¿Por qué crece $R^2$ cuando se agregan variables predictivas más a un modelo?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Por qué crece $R^2$ cuando se agregan variables predictivas más a un modelo?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: