1 votos

¿Por qué el R-cuadrado es menor en una regresión que contiene más variables que la suma de R-cuadrado de dos funciones de regresión por diferencia?

Comparando tres funciones de regresión, una tiene a tiene tres coeficientes.

Las otras dos funciones tienen dos y un coeficiente respectivamente. Sin embargo, los coeficientes son los mismos que los de la función con tres coeficientes.

La suma del valor r-cuadrado de las dos ecuaciones con uno y dos coeficientes es mayor que el valor r-cuadrado de la ecuación única.

¿Se debe esto a que la única ecuación con tres coeficientes tiene un coeficiente estadísticamente insignificante, mientras que las otras dos funciones tienen todas coeficientes estadísticamente significativos?

1voto

Martin Robins Puntos 1893

La adición de un regresor aumenta débilmente la $R^2$ .

Supongamos que tiene dos modelos en los que el segundo tiene un regresor adicional:

  • Modelo 1: $y_i = a + \epsilon_i$
  • Modelo 2: $ y_i = a + b x_i + \epsilon_i$

Obsérvese que el modelo 1 es igual al modelo 2 con la restricción $b=0$ . Estimando por mínimos cuadrados tenemos:

Suma de los residuos al cuadrado (SSR) para el modelo 1

$$ \begin{array}{*2{>{\displaystyle}r}} \mathit{SSR}_1 =& \mbox{min (over $a,b$)} & \sum_i \epsilon_i^2 \\ &\mbox{subject to} & y_i = a + b x_i + \epsilon_i \\ && b = 0 \end{array} $$

Suma de los residuos al cuadrado (SSR) del modelo 2

$$ \begin{array}{*2{>{\displaystyle}r}} \mathit{SSR}_2 =& \mbox{min (over $a,b$)} & \sum_i \epsilon_i^2 \\ &\mbox{subject to} & y_i = a + b x_i + \epsilon_i \end{array} $$ La restricción adicional $b=0$ no se puede bajar el mínimo De ahí $SSR_1 \geq SSR_2$ . Puesto que $R^2 = 1 - \frac{\mathit{SSR}}{\mathit{SST}}$ y la suma total de cuadrados $\mathit{SST} = \sum_i (y_i - \bar{y})^2$ es la misma para ambos casos, tenemos $R^2_1 \leq R^2_2$ .

Se puede generalizar enormemente este argumento. El ajuste de una forma funcional más flexible no puede aumentar la suma de los residuos al cuadrado y, por lo tanto, no puede disminuir los residuos no ajustados. $R^2$ .

En el contexto de la regresión lineal, si se añade un regresor, entonces sin ajustar $R^2$ aumenta (excepto en casos extremos, como un regresor colineal, en los que permanece igual). Esta es una de las razones por las que se suele utilizar la fórmula ajustada $R^2$ que penaliza la adición de regresores.

0voto

Matthieu Puntos 2091

En lugar de dar una ecuación, daré una explicación intuitiva.

Cuando se tienen múltiples predictores, cada uno de ellos explica parte de la variable de respuesta, y la R-cuadrado es simplemente la fracción de varianza de la variable de respuesta explicada por los predictores.

Si tiene dos predictores, cada uno explicará parte de la varianza, pero la varianza total explicada es menor que la suma de los individuales. La razón es sencilla: su contribución se solapa. La suma de R-cuadrado de la regresión lineal individual es igual a la R-cuadrado de la regresión lineal multivariante sólo cuando sus contribuciones no están correlacionadas.

Por ejemplo, si está prediciendo $y$ basado en $x_1$ y $x_2$ entonces sólo hay contribución a R-cuadrado de $x_1$ contribución sólo de $x_2$ y contribución que puede proceder de $x_1$ o $x_2$ . Si utiliza la regresión multivariante, la última parte de la contribución se cuenta una vez; si suma la contribución de dos regresiones univariantes, la última parte de la contribución se cuenta dos veces en la suma. A efectos de visualización, imaginemos un diagrama de Venn con mi argumento anterior.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X