23 votos

El R-cuadrado es igual al 81%, ¿qué significa?

Estaba estudiando la regresión lineal y me quedé atascado en r-cuadrado. Sé cómo calcular r-cuadrado como una máquina, pero quiero entender r-cuadrado en lenguaje humano. Por ejemplo, ¿qué significa r-cuadrado = 81%? Busqué en Google y vi varios tutoriales y reuní alguna intuición humana de r-cuadrado = 81%.

r-cuadrado = 81% significa:

  • Un 81% menos de varianza alrededor de la línea de regresión que de la línea media
  • Un 81% menos de error entre los valores previstos y los reales
  • Los datos reales están un 81% más cerca de la línea de regresión que de la línea media
  • 81% mejor predicción de los valores reales utilizando la línea de regresión que la línea media

Estos son todos los idiomas humanos de r-cuadrado = 81% que tengo. Por favor, corregidme si me equivoco. He visto un video 1 y encontré otra explicación de r-cuadrado. Que es: "r-cuadrado es el porcentaje de variación en 'Y' que se explica por su regresión en 'X'"

La última explicación me resulta un poco confusa. ¿Podría alguien hacerme entender con un simple ejemplo lo que realmente significa esta línea?

2 votos

El modelo explica el 81% de la variación de los datos

3 votos

Relacionado: Es $R^2$ ¿útil o peligroso? y especialmente las notas de Cosma Shalizi sobre $R^2$ que provocó esa pregunta ( pdf ).

1 votos

Lo que suelo utilizar como versión ampliada del comentario de @RobertLong: "La variable de respuesta varía entre filas. El 81% de esta variación se debe a diferencias en las covariables".

45voto

icelava Puntos 548

De hecho, esta última explicación es la mejor:

r-cuadrado es el porcentaje de variación de "Y" que se explica por su regresión sobre "X

Sí, es bastante abstracto. Tratemos de entenderlo.

Aquí hay algunos datos simulados.

scatterplot

Código R:

set.seed(1)
xx <- runif(100)
yy <- 1-xx^2+rnorm(length(xx),0,0.1)
plot(xx,yy,pch=19)

Lo que nos interesa principalmente es la variación de la variable dependiente $y$ . En un primer paso, prescindamos del predictor $x$ . En este "modelo" tan sencillo, la variación de $y$ es la suma de las diferencias al cuadrado entre las entradas de $y$ y la media de $y$ , $\overline{y}$ :

scatterplot with mean

abline(h=mean(yy),col="red",lwd=2)
lines(rbind(xx,xx,NA),rbind(yy,mean(yy),NA),col="gray")

Esta suma de cuadrados resulta ser:

sum((yy-mean(yy))^2)
[1] 8.14846

Ahora, probamos un modelo un poco más sofisticado: hacemos una regresión $y$ en $x$ y comprobar cuánta variación queda después de eso. Es decir, ahora calculamos las sumas de las diferencias al cuadrado entre las $y$ y la línea de regresión :

scatterplot regression line

plot(xx,yy,pch=19)
model <- lm(yy~xx)
abline(model,col="red",lwd=2)
lines(rbind(xx,xx,NA),rbind(yy,predict(model),NA),col="gray")

Observe cómo las diferencias -las líneas grises- son mucho más pequeñas ahora que antes.

Y aquí está la suma de las diferencias al cuadrado entre los $y$ y la línea de regresión:

sum(residuals(model)^2)
[1] 1.312477

Resulta que esto es sólo un 16% de las sumas de los residuos al cuadrado que teníamos antes:

sum(residuals(model)^2)/sum((yy-mean(yy))^2)
[1] 0.1610705

Así, nuestro modelo de línea de regresión redujo la variación no explicada de los datos observados $y$ en un 100%-16% = 84%. Y esta cifra es precisamente la $R^2$ que R nos informará:

summary(model)

Call:
lm(formula = yy ~ xx)
... snip ...    
Multiple R-squared:  0.8389,    Adjusted R-squared:  0.8373 

Ahora bien, una pregunta que podría hacerse es por qué calculamos la variación como una suma de plazas . ¿No sería más fácil sumar las longitudes absolutas de las desviaciones que trazamos anteriormente? La razón es que los cuadrados son mucho más fáciles de manejar matemáticamente, y resulta que si trabajamos con cuadrados, podemos demostrar todo tipo de teoremas útiles sobre $R^2$ y las cantidades relacionadas, a saber $F$ pruebas y tablas ANOVA.

1 votos

+1 ¿Sería conveniente editar para añadir una salpicadura liberal de "en el datos "(por ejemplo, "variación reducida no explicada en los datos "?

0 votos

No creo que se pueda concluir que la predicción del modelo es un 81% mejor. En primer lugar, podríamos ser quisquillosos y observar que esto no dice si el modelo es mejor en un sentido L1, L2 o lo que sea En segundo lugar, y más importante, podríamos añadir covariables sin sentido al modelo, que podrían ser insignificantes pero aumentarían el R^2. Dudo que ningún estadístico llegue a la conclusión de que este modelo más amplio es mejor en ningún sentido.

1 votos

@kurtosis: En ningún sitio he dicho que la predicción del modelo sea un 81% mejor. Con "la última afirmación" no me refería a la última viñeta, sino a la afirmación que hay debajo de la lista. Permíteme editar para aclarar.

8voto

kurtosis Puntos 602

El R-cuadrado es el porcentaje de la varianza explicada por un modelo. Supongamos que sus datos tienen una varianza de 100: es la suma de los errores al cuadrado frente a la media y se divide por $N-1$ (los grados de libertad). Luego vas a modelar los datos y tu modelo tiene un $R^2$ del 81%. Esto significa que las predicciones del modelo tienen una varianza de 81. La varianza restante, 19, es la varianza de sus datos frente a la media condicional (es decir, la varianza en torno a la línea de regresión). Por tanto, tu primera afirmación es correcta: hay "un 81% menos de varianza alrededor de la línea de regresión que de la línea media".

Tu segunda y tercera afirmaciones no son correctas ya que "menos error" y "más cerca" podrían interpretarse fácilmente como el uso de la distancia entre los puntos y la línea de regresión (y así minimizar el $L_1$ norma=valor absoluto de los errores).

Su cuarta afirmación es muy difícil de interpretar, por lo que no sé si se podría decir que es incorrecta. El hecho de que la predicción sea "un 81% mejor" es totalmente confuso en cuanto a su significado. Ya has mencionado "más cerca", pero no podemos concluir que este modelo esté un 81% más cerca de los datos observados (según las críticas anteriores a las afirmaciones #2 y #3.) Peor aún: podríamos simplemente añadir muchas variables de ruido al modelo. Es probable que sean insignificantes, pero se podría encontrar algún conjunto de ellas que aumentara la $R^2$ . Dudo que usted o cualquier estadístico llegue a la conclusión de que este modelo más amplio es mejor en cualquier sentido. Además, es posible que su modelo sólo trate de explicar y no de predecir, por lo que yo evitaría especialmente afirmaciones como la #4.

0 votos

Gracias por señalar mi error. He editado y puesto 'd':)

1 votos

Editado mi respuesta en consecuencia! :-) Gracias también a @bilibraker por haber puesto en LaTeX mi respuesta de forma adecuada (después de que se me olvidara hacerlo).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X