Chaconne hizo un excelente trabajo al definir las fórmulas de las medidas y cómo están muy estrechamente relacionadas desde un punto de vista matemático. Si comparas o clasificas modelos utilizando el mismo conjunto de datos, esas dos medidas son intercambiables, lo que significa que obtendrás la misma clasificación exacta de tus modelos ya sea que uses R Cuadrado (clasificándolos de mayor a menor) o el RMSE (clasificándolos de menor a mayor).
Sin embargo, las dos medidas tienen un significado y uso muy diferentes. R Cuadrado no solo es una medida de bondad de ajuste, también es una medida de cuánto el modelo (el conjunto de variables independientes que seleccionaste) explica el comportamiento (o la varianza) de tu variable dependiente. Entonces, si tu modelo tiene un R Cuadrado de 0.60, explica el 60% del comportamiento de tu variable dependiente. Ahora, si utilizas el R Cuadrado Ajustado que penaliza el R Cuadrado por la cantidad de variables que utilizas, obtienes una buena idea de cuándo deberías dejar de agregar variables a tu modelo (y eventualmente obtener un modelo que está sobreajustado). Si tu R Cuadrado Ajustado es 0.60 y al agregar una variable adicional aumenta solo a 0.61, probablemente no valga la pena agregar esta variable extra.
Ahora, pasando al RMSE también conocido más comúnmente como Error Estándar. Tiene un uso completamente diferente al R Cuadrado. El Error Estándar te permite construir Intervalos de Confianza alrededor de tu estimación de regresión asumiendo cualquier Nivel de Confianza en el que estés interesado (típicamente 99%, 95% o 90%). De hecho, el Error Estándar es el equivalente de un valor Z. Entonces, si deseas construir un IC del 95% alrededor de tu línea de tendencia de regresión, multiplicas el Error Estándar por 1.96 y rápidamente generas una estimación alta y baja como límite de tu IC del 95% alrededor de la línea de regresión.
Por lo tanto, tanto el R Cuadrado (y R Cuadrado Ajustado) como el Error Estándar son extremadamente útiles para evaluar la solidez estadística de un modelo. Y, como se indicó, tienen aplicaciones prácticas completamente diferentes. Uno mide el poder explicativo del modelo. El otro te permite construir Intervalos de Confianza. Ambos son muy útiles pero cosas diferentes.
En cuanto a evaluar la precisión de predicción en datos que no has visto, ambas medidas también tienen sus limitaciones al igual que la mayoría de las otras medidas en las que puedas pensar. En nuevos datos que están fuera de muestra, el R Cuadrado y el Error Estándar en la muestra histórica o de aprendizaje del modelo no serán de mucha utilidad. Lo que está fuera de muestra es simplemente una gran prueba para verificar si tu modelo está sobreajustado (gran R Cuadrado y bajo Error Estándar, pero un rendimiento deficiente en fuera de muestra) o no. Entiendo que medidas mejores para datos prospectivos (datos que aún no has visto) son los criterios de información incluyendo AIC, BIC, SIC. Y, el modelo con los mejores valores de criterio de información debería manejar mejor los datos no vistos, en otras palabras, ser más predictivo. Esas medidas son primas cercanas al concepto de R Cuadrado Ajustado. Sin embargo, son más punitivas al agregar variables adicionales de lo que es R Cuadrado Ajustado.