15 votos

relación entre el $R^2$ de regresión simple y regresión múltiple

Una pregunta muy básica sobre el $R^2$ de las regresiones de MCO

  1. ejecución de regresión OLS y ~ x1, tenemos una $R^2$, dicen 0.3
  2. ejecución de regresión OLS y ~ x2, tenemos otro $R^2$, dicen 0.4
  3. ahora corremos una regresión de y ~ x1 + x2, el valor de esta regresión de la R cuadrado?

Creo que es claro el $R^2$ para la regresión múltiple no debe ser menor que 0.4, pero es posible que sea más de 0.7?

6voto

Christoph Hanck Puntos 4143

La segunda variable sólo puede hacer lo que la primera no consigue explicar en la variable dependiente. Aquí está un ejemplo numérico:

Generar x1 como una normal estándar regresor, el tamaño de la muestra 20. Sin pérdida de generalidad, tome $y_i=0.5x_{1i}+u_i$ donde$u_i$$N(0,1)$, demasiado. Ahora, toma la segunda regresor x2 simplemente como la diferencia entre la variable dependiente y el primer regresor.

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared

3voto

mark Puntos 232

Otros que el límite inferior, el cual es de 0.3 o 0.4 dependiendo de la variable que entra en el primer modelo, no hay mucho que se puede decir. Cuánto $R^2$ se eleva depende en gran medida de la información que la segunda variable trae en el modelo. Por la información, nos referimos por supuesto al explicó la variación en la respuesta.

Hay un concepto que es fundamental en ese sentido y que es la correlación entre los predictores. Si la correlación es grande, la nueva variable no sólo no aporta nada a la modelo, pero también complican la inferencia de sus variables existentes, ya que las estimaciones se vuelven imprecisas (multicolinealidad). Esta es la razón por la que idealmente se prefiere la nueva variable para que sea ortogonal a los demás. Las posibilidades son escasas para que esto suceda en los estudios observacionales, pero se puede lograr en el control de la configuración, por ejemplo, cuando la construcción de su propio experimento.

Pero ¿cómo se puede cuantificar con precisión la nueva información de una variable traerá a la modelo? Una medida ampliamente utilizada que lleva todos estos en cuenta es el parcial $R^2$. Si usted está familiarizado con el análisis de VARIANZA de un modelo lineal, esto no es más que la disminución proporcional de la Suma de Cuadrados de Error que se va a lograr mediante la inclusión de esta variable en el modelo. Altos porcentajes son deseables mientras bajas probablemente te hacen pensar si este es el mejor curso de acción.

Así como @cardenal señaló en los comentarios, su nuevo coeficiente de determinación podría ser tan alta como 1. También podría ser tan bajo como 0.400001. No hay manera de saberlo sin información adicional.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X