49 votos

¿Qué es la fórmula de R-cuadrado ajustado en lm en R y cómo debe interpretarse?

¿Cuál es la fórmula exacta utilizada en R lm() para el R-cuadrado ajustado? ¿Cómo puedo interpretarlo?

Fórmulas de r-cuadrado ajustadas

Parece que existen varias fórmulas para calcular la R-cuadrada ajustada.

  • La fórmula de Wherry: $1-(1-R^2)\frac{(n-1)}{(n-v)}$
  • La fórmula de McNemar: $1-(1-R^2)\frac{(n-1)}{(n-v-1)}$
  • La fórmula del Señor: $1-(1-R^2)\frac{(n+v-1)}{(n-v-1)}$
  • La fórmula de Stein: $1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2)$

Descripciones de los libros de texto

  • Según el libro de texto de Field, Descubrir la estadística con R (2012, p. 273) R utiliza la ecuación de Wherry, que "nos dice cuánta varianza en Y se contabilizaría si el modelo se hubiera derivado de la población de la que se tomó la muestra". No da la fórmula de Wherry. Recomienda utilizar la fórmula de Stein (a mano) para comprobar la validez cruzada del modelo.
  • Kleiber/Zeileis, Econometría aplicada con R (2008, p. 59) afirman que es la "R-cuadrada ajustada de Theil" y no dicen exactamente cómo varía su interpretación de la R-cuadrada múltiple.
  • Dalgaard, Introducción a la estadística con R (2008, p. 113) escribe que "si se multiplica [la R-cuadrada ajustada] por el 100%, puede interpretarse como "% de reducción de la varianza"". No dice a qué fórmula corresponde.

Anteriormente había pensado, y leído mucho, que el R-cuadrado penaliza por añadir variables adicionales al modelo. Ahora, el uso de estas fórmulas diferentes parece exigir diferentes interpretaciones. También miré una pregunta relacionada en Stack Overflow ( ¿Cuál es la diferencia entre R-cuadrado múltiple y R-cuadrado ajustado en una regresión por mínimos cuadrados de una sola variable? ), y el diccionario estadístico de la escuela Wharton en UPenn .

Preguntas

  • ¿Qué fórmula se utiliza para el r-cuadrado ajustado por R lm() ?
  • ¿Cómo puedo interpretarlo?

38voto

Eric Davis Puntos 1542

1. ¿Qué fórmula tiene lm en R utilizar para el r-cuadrado ajustado?

Como ya se ha mencionado, al teclear summary.lm le dará el código que R utiliza para calcular el R cuadrado ajustado. Extrayendo la línea más relevante se obtiene:

ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)

que corresponde en notación matemática a:

$$R^2_{adj} = 1 - (1 - R^2) \frac{n-1}{n-p-1}$$

asumiendo que hay un intercepto (es decir, df.int=1 ), $n$ es el tamaño de la muestra, y $p$ es el número de predictores. Por lo tanto, sus grados de libertad de error (es decir, rdf ) es igual a n-p-1 .

La fórmula corresponde a lo que Yin y Fan (2001) denominan Wherry Fórmula-1 (aparentemente hay otra fórmula menos común de Wherry que utiliza $n-p$ en el denominador en lugar de $n-p-1$ ). Sugieren que los nombres más comunes en orden de aparición son "fórmula Wherry", "formlua Ezekiel", "fórmula Wherry/McNemar" y "fórmula Cohen/Cohen".

2. ¿Por qué hay tantas fórmulas de r-cuadrado ajustado?

$R^2_{adj}$ tiene como objetivo estimar $\rho^2$ la proporción de la varianza explicada en la población por la ecuación de regresión de la población. Aunque esto está claramente relacionado con el tamaño de la muestra y el número de predictores, no está tan claro cuál es el mejor estimador. Así, hay estudios de simulación como el de Yin y Fan (2001) que han evaluado diferentes fórmulas de r-cuadrado ajustadas en términos de lo bien que estiman $\rho^2$ (ver esta cuestión para debatirla más a fondo ).

Verás con todas las fórmulas, la diferencia entre $R^2$ y $R^2_{adj}$ se reduce a medida que aumenta el tamaño de la muestra. La diferencia se aproxima a cero cuando el tamaño de la muestra tiende a infinito. La diferencia también se reduce con menos predictores.

3. Cómo interpretar $R^2_{adj}$ ?

$R^2_{adj}$ es una estimación de la proporción de la varianza explicada por la verdadera ecuación de regresión en la población $\rho^2$ . Por lo general, le interesará $\rho^2$ en la que te interesa la predicción lineal teórica de una variable. En cambio, si está más interesado en la predicción mediante la ecuación de regresión de la muestra, como suele ser el caso en los entornos aplicados, entonces alguna forma de validación cruzada $R^2$ sería más relevante.

Referencias

  • Yin, P., y Fan, X. (2001). Estimación de $R^2$ contracción en la regresión múltiple: Una comparación de diferentes métodos de análisis. The Journal of Experimental Education, 69(2), 203-224. PDF

14voto

John Mac Puntos 1095

En cuanto a su primera pregunta: Si no sabes cómo se calcula mira el código. Si escribes summary.lm en su consola, obtendrá el código de esta función. Si hojeas el código encontrarás una línea: ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf) . Si miras algunas líneas por encima de esta línea te darás cuenta de que:

  • ans$r.squared es su $R^2$
  • n es el número de los residuos = número de observaciones
  • df.int es 0 o 1 (dependiendo de si tiene una intercepción)
  • rdf son sus df residuales

Pregunta 2: De Wikipedia: "Ajustado $R^2$ es una modificación de $R^2$ que ajusta el número de términos explicativos en un modelo. '

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X