Acabo de empezar a aprender sobre las siguientes medidas estadísticas, r-cuadrado y r-cuadrado ajustado, y me preguntaba por qué no podemos utilizar el r-cuadrado ajustado para todos los modelos de regresión, teniendo en cuenta el hecho de que penaliza al modelo por las variables inútiles, a diferencia del primero. ¿Hay alguna ventaja de la r-cuadrada sobre la r-cuadrada ajustada en algunas condiciones?
Respuestas
¿Demasiados anuncios?Antes de intentar responder a la pregunta, debemos aclarar al menos dos cosas: "¿Qué queremos decir con ajustado $R^2$ ? y "¿Qué entendemos por 'mejor'?
En última instancia, el objetivo es estimar la verdadera proporción de varianza explicada en la población $\rho^2$ . Se han propuesto multitud de estimadores diferentes. Gwowen Shieh $^{[1]}$ compara nada menos que 18 estimadores diferentes y Karch $^{[3]}$ compara 20 estimadores diferentes. Se puede encontrar un buen resumen en $[2]$ y $[3]$ . Por lo tanto, el término "ajustado $R^2$ "es ambigua. No ayuda el hecho de que distintos programas informáticos apliquen fórmulas diferentes, lo que dificulta la comparación de los datos "ajustados". $R^2$ ". R, por ejemplo, utiliza el Wherry Fórmula-1 según la nomenclatura de Yin et al. $^{[2]}$ (ver aquí ).
¿Qué queremos decir con "mejor"? Shieh $^{[1]}$ y Karch $^{[3]}$ utilizó simulaciones para comparar los diferentes estimadores con respecto a sesgo y error medio cuadrático (MSE). Dependiendo de lo que prioricen los investigadores, el "mejor" estimador varía.
Por ejemplo, Karch $^{[3]}$ lo encontró:
El estimador exacto de Olkin-Pratt era óptimo. Fue el único estimador que era insesgado en todas las condiciones. Además, tenía prácticamente idéntico dentro de cualquier condición en comparación con otros estimadores insesgados dentro de esa condición. En consecuencia, bajo esta perspectiva, debería utilizarse siempre el estimador exacto de Olkin-Pratt.
Pero también escribe:
Sólo si el investigador está seguro de que minimizar el MSE es más crítico que la insesgadez debe utilizarse un estimador diferente. En caso, recomiendo una elección individualizada basada en la estrategia descrita al principio de esta discusión y, si esto no es factible la versión de partes positivas del estimador de Ezekiel.
Curiosamente, incluso el normal, sin ajustar $R^2$ que tiene un claro sesgo positivo, tuvo el menor error cuadrático medio en al menos un escenario de simulación.
Referencias
$[1]$ : Shieh G (2008): Improved shrinkage estimation of squared multiple correlation coefficient and squared cross-validity coefficient. Organizational Research Methods, 11(2): 387-407 ( enlace )
$[2]$ : Yin P, Fan X (2001): Estimación de $R^2$ contracción en la regresión múltiple: Una comparación de diferentes métodos de análisis. The Journal of Experimental Education, 69(2): 203-224 ( enlace )
$[3]$ : Karch J (2020): Mejorando el R-cuadrado ajustado. Collabra: Psicología (2020) 6 (1): 45. ( enlace )
Ajustado $R^2$ es el mejor modelo cuando se comparan modelos que tienen una cantidad diferente de variables.
La lógica detrás de esto es que $R^2$ siempre aumenta cuando aumenta el número de variables. Esto significa que, aunque se añada una variable inútil al modelo, su $R^2$ seguirá aumentando. Para equilibrar esto, siempre hay que comparar modelos con un número diferente de variables independientes con $R^2$ .
Ajustado $R^2$ sólo aumenta si la nueva variable mejora el modelo más de lo que cabría esperar por azar.
Sí, hay una ventaja para $R^2$ : Tiene una interpretación directa como la proporción de la varianza de la variable dependiente que se explica por el modelo. Ajustado $R^2$ no tiene esta interpretación.
Además, escribes que ajustado $R^2$ "penaliza el modelo por las variables inútiles". Esto es cierto, pero incompleto. En primer lugar, casi ninguna variable es totalmente inútil. $R^2$ aumentará incluso si añadimos ruido aleatorio, porque, sólo por casualidad, habrá algunos relación (véase más adelante).
En segundo lugar, ajustado $R^2$ baja $R^2$ para cada variable independiente, inútil o no. De hecho, en algunos casos (véase más adelante) funciona muy mal para las variables de ruido
set.seed(1234) #Sets a seed
x1 <- rnorm(1000) #Standard Normal, N = 1000
x2 <- rnorm(1000) #Normal, N = 1000
y <- 3*x1 + rnorm(1000, 0, 4) #No relation with X2
m1 <- lm (y~x1)
summary(m1) #R2 = 0.3627, adjusted = 0.3621
m2 <- lm (y~x1 + x2)
summary(m2) #R2 = 0.3635, adjusted = 0.3622
Obsérvese que el m2 sería ligeramente preferible, incluso utilizando el $R^2$ .
Ten en cuenta también que no tuve que "pescar" un ejemplo como este, este fue el primero que probé.
Ajustado $R^2$ es mucho más útil para comparar modelos en los que todos los IVs son útiles. Es una forma de ajustar la complejidad de un modelo.