17 votos

Regresión: ¿Cuál es la utilidad de $R^2$ en comparación con RMSE?

Supongamos que estoy haciendo regresión con conjuntos de entrenamiento, validación y prueba. Puedo encontrar el RMSE y R cuadrado ($R^2$, el coeficiente de determinación) a partir de la salida de mi software (como la función lm() de R).

Entiendo que el RMSE (o MSE) de prueba es una medida de la precisión en predecir los valores de validación/prueba, mientras que $R^2$ es una medida de la calidad de ajuste al capturar la varianza en el conjunto de entrenamiento.

En el mundo real, lo que realmente me importa es la precisión de la predicción generalizada en datos que no he visto. Entonces, ¿cuál es la utilidad del valor de $R^2$ en comparación con el RMSE?

13voto

Chris Cudmore Puntos 634

Chaconne hizo un excelente trabajo al definir las fórmulas de las medidas y cómo están muy estrechamente relacionadas desde un punto de vista matemático. Si comparas o clasificas modelos utilizando el mismo conjunto de datos, esas dos medidas son intercambiables, lo que significa que obtendrás la misma clasificación exacta de tus modelos ya sea que uses R Cuadrado (clasificándolos de mayor a menor) o el RMSE (clasificándolos de menor a mayor).

Sin embargo, las dos medidas tienen un significado y uso muy diferentes. R Cuadrado no solo es una medida de bondad de ajuste, también es una medida de cuánto el modelo (el conjunto de variables independientes que seleccionaste) explica el comportamiento (o la varianza) de tu variable dependiente. Entonces, si tu modelo tiene un R Cuadrado de 0.60, explica el 60% del comportamiento de tu variable dependiente. Ahora, si utilizas el R Cuadrado Ajustado que penaliza el R Cuadrado por la cantidad de variables que utilizas, obtienes una buena idea de cuándo deberías dejar de agregar variables a tu modelo (y eventualmente obtener un modelo que está sobreajustado). Si tu R Cuadrado Ajustado es 0.60 y al agregar una variable adicional aumenta solo a 0.61, probablemente no valga la pena agregar esta variable extra.

Ahora, pasando al RMSE también conocido más comúnmente como Error Estándar. Tiene un uso completamente diferente al R Cuadrado. El Error Estándar te permite construir Intervalos de Confianza alrededor de tu estimación de regresión asumiendo cualquier Nivel de Confianza en el que estés interesado (típicamente 99%, 95% o 90%). De hecho, el Error Estándar es el equivalente de un valor Z. Entonces, si deseas construir un IC del 95% alrededor de tu línea de tendencia de regresión, multiplicas el Error Estándar por 1.96 y rápidamente generas una estimación alta y baja como límite de tu IC del 95% alrededor de la línea de regresión.

Por lo tanto, tanto el R Cuadrado (y R Cuadrado Ajustado) como el Error Estándar son extremadamente útiles para evaluar la solidez estadística de un modelo. Y, como se indicó, tienen aplicaciones prácticas completamente diferentes. Uno mide el poder explicativo del modelo. El otro te permite construir Intervalos de Confianza. Ambos son muy útiles pero cosas diferentes.

En cuanto a evaluar la precisión de predicción en datos que no has visto, ambas medidas también tienen sus limitaciones al igual que la mayoría de las otras medidas en las que puedas pensar. En nuevos datos que están fuera de muestra, el R Cuadrado y el Error Estándar en la muestra histórica o de aprendizaje del modelo no serán de mucha utilidad. Lo que está fuera de muestra es simplemente una gran prueba para verificar si tu modelo está sobreajustado (gran R Cuadrado y bajo Error Estándar, pero un rendimiento deficiente en fuera de muestra) o no. Entiendo que medidas mejores para datos prospectivos (datos que aún no has visto) son los criterios de información incluyendo AIC, BIC, SIC. Y, el modelo con los mejores valores de criterio de información debería manejar mejor los datos no vistos, en otras palabras, ser más predictivo. Esas medidas son primas cercanas al concepto de R Cuadrado Ajustado. Sin embargo, son más punitivas al agregar variables adicionales de lo que es R Cuadrado Ajustado.

1 votos

Gracias por tu respuesta. Normalmente he utilizado el RMSE solo para evaluar el poder predictivo de un modelo de regresión lineal (después de predecir los valores de un conjunto de pruebas no visto). Así que no he visto que el RMSE "tenga un uso completamente diferente ... para construir intervalos de confianza alrededor de tu estimación de regresión". ¿Supongo que esto debe ser algo de estadísticos? Yo vengo de la ciencia de la computación, así que no he calculado muchos intervalos de confianza en mi carrera.

0 votos

RMSE no debe ser llamado error estándar. Sé que el resumen lm en R lo hace, y no puedo entender por qué.

11voto

Paulius Puntos 369

El $R^2$ no ajustado se define como $$R^2 = 1 - \frac{\frac{1}{n}\sum_{i=1}^n (y_i - \hat y_i)^2}{\frac{1}{n}\sum_{i=1}^n (y_i - \bar y)^2} = 1 - \frac{MSE}{\frac{1}{n}TotSS}$$

Tomemos el RMSE como $$ RMSE = \sqrt{MSE}. $$

Para un conjunto de datos dado $y_i$ y $\bar y$ están fijos, por lo tanto, a medida que se consideran diferentes modelos solo cambian los $\hat y_i$. Esto significa que en las expresiones anteriores, solo el MSE cambia. Por lo tanto, tanto $R^2$ como $RMSE$ son funciones de lo mismo, y por lo tanto no hay mucha diferencia (excepto en la interpretación) al considerar uno en lugar de otro.

Si en cambio observamos el $R^2$ ajustado o usamos $RMSE = \sqrt{\frac{n}{n-p}MSE}$ entonces también tendremos $p$, la dimensión del modelo, cambiando para diferentes modelos.

0 votos

Siempre he pensado que si tienes un alto RMSE, tu modelo no es fiable, por lo tanto, otras métricas que expliquen el modelo tampoco son fiables. ¿Pero estás diciendo que no importa qué tan alto sea el RMSE, si un modelo1 tiene un R ** 2 más alto que el modelo2, implica que el modelo1 es mejor?

2 votos

@haneulkim RMSE tiene las mismas unidades que la respuesta, por lo que lo que se considera grande o pequeño depende del contexto; por ejemplo, si un RMSE de 100 es "grande" no se puede responder sin conocer más sobre el problema. $R^2$ essentially normalizes the MSE into a unitless quantity so that we can interpret it context-free. If two models use the same response, so the total sum of squares is the same, then comparing $R^2$s is equivalent to comparing RMSEs. Does that help?

0 votos

¡Sí, gracias! Sin embargo, tengo una pregunta más. Si tienes un modelo de regresión pobre (con errores grandes) con múltiples variables x, ¿es válido concluir que x1 es más importante que x2 si el $R^2$ de x1 es mayor?

1voto

Dave Puntos 76

$R^2$ te obliga a comparar el rendimiento del modelo con el rendimiento de un modelo base.

$$ R^2=1-\left(\dfrac{ \overset{N}{\underset{i=1}{\sum}}\left( y_i-\hat y_i \right)^2 }{ \overset{N}{\underset{i=1}{\sum}}\left( y_i-\bar y \right)^2 }\right) $$

El numerador es una función del $\text{RMSE}$ de tu modelo (sácalo al cuadrado y luego multiplícalo por el tamaño de la muestra, $N$). El denominador es esa misma función del $\text{RMSE}$ de un modelo que siempre predice $\bar y$, que es una línea de base razonable con la que se puede comparar el rendimiento: si quieres predecir la media condicional y no tienes idea de cómo hacerlo, ¿qué mejor opción que predecir la media marginal/agrupada $\bar y$ cada vez?

$$ R^2=1-\left(\dfrac{ \overset{N}{\underset{i=1}{\sum}}\left( y_i-\hat y_i \right)^2 }{ \overset{N}{\underset{i=1}{\sum}}\left( y_i-\bar y \right)^2 }\right) =1 - \left(\dfrac{ N\times \left(\text{RMSE}_{\text{model}}\right)^2 }{ N\times \left(\text{RMSE}_{\bar y}\right)^2 }\right) =1 - \left(\dfrac{ \left(\text{RMSE}_{\text{model}}\right)^2 }{ \left(\text{RMSE}_{\bar y}\right)^2 }\right) $$

Dado que $R^2$ te obliga a comparar con un punto de referencia, evitas hacer afirmaciones ridículas solo porque el $\text{RMSE}$ parece ser un número pequeño. Claro, el número podría ser pequeño, pero si tendrías un $\text{RMSE}$ más pequeño (mejor) utilizando un modelo básico, probablemente quieras saber si todo el trabajo duro que has realizado para desarrollar tu modelo ha dado como resultado un peor rendimiento que si solo hubieras predicho la misma $\bar y$ cada vez.

Sí, obtendrás información similar solo mirando el $\text{RMSE}$ del modelo y comparándolo con el $\text{RMSE}$ de un modelo que siempre predice $\bar y$, pero calcular $R^2$ explícitamente te obliga a hacer esto.

Una desventaja de $R^2$ es que es fácil caer en la trampa de mirar valores como las calificaciones en la escuela, donde $R^2 = 0.95$ es una $\text{A}$ que te hace feliz y $R^2 = 0.50$ es una $\text{F}$ que te pone triste. Si el estado del arte en modelado solo logra un $R^2 = 0.30$, entonces tu $R^2 = 0.50$ no suena tan mal, y si las personas obtienen rutinariamente $R^2 > 0.99$, entonces tu $R^2 = 0.95$ no suena tan bien. Fuera de contexto, es difícil considerar el rendimiento del modelo como bueno o malo, sin embargo, $R^2$ puede dar la ilusión de alinearse con las calificaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X