La adición de un regresor aumenta débilmente la $R^2$ .
Supongamos que tiene dos modelos en los que el segundo tiene un regresor adicional:
- Modelo 1: $y_i = a + \epsilon_i$
- Modelo 2: $ y_i = a + b x_i + \epsilon_i$
Obsérvese que el modelo 1 es igual al modelo 2 con la restricción $b=0$ . Estimando por mínimos cuadrados tenemos:
Suma de los residuos al cuadrado (SSR) para el modelo 1
$$ \begin{array}{*2{>{\displaystyle}r}} \mathit{SSR}_1 =& \mbox{min (over $a,b$)} & \sum_i \epsilon_i^2 \\ &\mbox{subject to} & y_i = a + b x_i + \epsilon_i \\ && b = 0 \end{array} $$
Suma de los residuos al cuadrado (SSR) del modelo 2
$$ \begin{array}{*2{>{\displaystyle}r}} \mathit{SSR}_2 =& \mbox{min (over $a,b$)} & \sum_i \epsilon_i^2 \\ &\mbox{subject to} & y_i = a + b x_i + \epsilon_i \end{array} $$ La restricción adicional $b=0$ no se puede bajar el mínimo De ahí $SSR_1 \geq SSR_2$ . Puesto que $R^2 = 1 - \frac{\mathit{SSR}}{\mathit{SST}}$ y la suma total de cuadrados $\mathit{SST} = \sum_i (y_i - \bar{y})^2$ es la misma para ambos casos, tenemos $R^2_1 \leq R^2_2$ .
Se puede generalizar enormemente este argumento. El ajuste de una forma funcional más flexible no puede aumentar la suma de los residuos al cuadrado y, por lo tanto, no puede disminuir los residuos no ajustados. $R^2$ .
En el contexto de la regresión lineal, si se añade un regresor, entonces sin ajustar $R^2$ aumenta (excepto en casos extremos, como un regresor colineal, en los que permanece igual). Esta es una de las razones por las que se suele utilizar la fórmula ajustada $R^2$ que penaliza la adición de regresores.