En ausencia de una mejor información, el valor medio de la variable objetivo se puede considerar una estimación simple para los valores de la variable objetivo, ya sea al intentar modelar los datos existentes o al intentar predecir valores futuros. Esta estimación simple de la variable objetivo (es decir, los valores predichos son todos iguales a la media de la variable objetivo) estará desviada por un cierto error. Una forma estándar de medir el error promedio es la desviación estándar (SD), $ \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \bar y)^2}$, ya que la SD tiene la buena propiedad de ajustarse a una distribución en forma de campana (Gaussiana) si la variable objetivo está distribuida de forma normal. Por lo tanto, la SD se puede considerar la cantidad de error que naturalmente ocurre en las estimaciones de la variable objetivo. Esto lo convierte en el punto de referencia que cualquier modelo necesita superar.
Existen varias formas de medir el error de una estimación de modelo; entre ellas, el Error Cuadrático Medio (RMSE) que mencionaste, $ \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat y_i)^2}$, es uno de los más populares. Es conceptualmente bastante similar a la SD: en lugar de medir qué tan lejos está un valor real de la media, utiliza esencialmente la misma fórmula para medir qué tan lejos está un valor real de la predicción del modelo para ese valor. Un buen modelo debería, en promedio, tener mejores predicciones que la estimación ingenua de la media para todas las predicciones. Por lo tanto, la medida de variación (RMSE) debería reducir la aleatoriedad mejor que la SD.
Este argumento se aplica a otras medidas de error, no solo al RMSE, pero el RMSE es particularmente atractivo para la comparación directa con la SD porque sus fórmulas matemáticas son análogas.
Edición:
Alguien me preguntó fuera de línea por una cita que respalde la idea de que la SD es un punto de referencia para el RMSE. Personalmente, aprendí este principio por primera vez de Shmueli et al. 2016. Lo siento, pero no tengo el libro a mano, así que no puedo citar un número de página.
Shmueli, G., Bruce, P. C., Stephens, M., & Patel, N. R. (2016). Data Mining for Business Analytics: Concepts, Techniques, and Applications with JMP Pro (3rd Edition). Wiley.