38 votos

¿Cómo interpretar el error cuadrático medio (RMSE) vs desviación estándar?

Digamos que tengo un modelo que me da valores proyectados. Calculo el RMSE de esos valores. Y luego la desviación estándar de los valores reales.

¿Tiene sentido comparar esos dos valores (varianzas)? Lo que pienso es que, si el RMSE y la desviación estándar son similares/iguales, entonces el error/varianza de mi modelo es el mismo que lo que está sucediendo en realidad. Pero si ni siquiera tiene sentido comparar esos valores, entonces esta conclusión podría ser incorrecta. Si mi pensamiento es correcto, ¿significa eso que el modelo es tan bueno como puede ser porque no puede atribuir lo que está causando la variación? Creo que la última parte probablemente es incorrecta o al menos necesita más información para responder.

34voto

Paulius Puntos 369

Supongamos que nuestras respuestas son $y_1, \dots, y_n$ y nuestros valores predichos son $\hat y_1, \dots, \hat y_n$.

La varianza de la muestra (usando $n$ en lugar de $n-1$ por simplicidad) es $\frac{1}{n} \sum_{i=1}^n (y_i - \bar y)^2$ mientras que el MSE es $\frac{1}{n} \sum_{i=1}^n (y_i - \hat y_i)^2$. Por lo tanto, la varianza de la muestra indica cuánto varían las respuestas alrededor de la media mientras que el MSE indica cuánto varían las respuestas alrededor de nuestras predicciones. Si consideramos la media general $\bar y$ como el predictor más simple que podríamos considerar, entonces al comparar el MSE con la varianza de la muestra de las respuestas, podemos ver cuánta más variación hemos explicado con nuestro modelo. Esto es exactamente lo que hace el valor $R^2$ en la regresión lineal.

Considera la siguiente imagen: La varianza de la muestra de los $y_i$ es la variabilidad alrededor de la línea horizontal. Si proyectamos todos los datos sobre el eje $Y$ podemos ver esto. El MSE es la distancia cuadrada media a la línea de regresión, es decir, la variabilidad alrededor de la línea de regresión (es decir, los $\hat y_i$). Por lo tanto, la variabilidad medida por la varianza de la muestra es la distancia cuadrada promediada a la línea horizontal, lo cual podemos ver que es considerablemente mayor que la distancia cuadrada promediada a la línea de regresión. enter image description here

0 votos

Si se debe utilizar (n-1) para la varianza de la muestra, ¿significa que, para esta comparación, también se debe calcular el MSE usando (n-1)?

0 votos

@rvbarreto No veo MSE con $n-1$ ya que los grados de libertad en $\hat y$ son más complicados, pero en general todo se trata solo de factores de escala y no afecta las ideas clave.

29voto

Ochado Puntos 126

En ausencia de una mejor información, el valor medio de la variable objetivo se puede considerar una estimación simple para los valores de la variable objetivo, ya sea al intentar modelar los datos existentes o al intentar predecir valores futuros. Esta estimación simple de la variable objetivo (es decir, los valores predichos son todos iguales a la media de la variable objetivo) estará desviada por un cierto error. Una forma estándar de medir el error promedio es la desviación estándar (SD), $ \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \bar y)^2}$, ya que la SD tiene la buena propiedad de ajustarse a una distribución en forma de campana (Gaussiana) si la variable objetivo está distribuida de forma normal. Por lo tanto, la SD se puede considerar la cantidad de error que naturalmente ocurre en las estimaciones de la variable objetivo. Esto lo convierte en el punto de referencia que cualquier modelo necesita superar.

Existen varias formas de medir el error de una estimación de modelo; entre ellas, el Error Cuadrático Medio (RMSE) que mencionaste, $ \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat y_i)^2}$, es uno de los más populares. Es conceptualmente bastante similar a la SD: en lugar de medir qué tan lejos está un valor real de la media, utiliza esencialmente la misma fórmula para medir qué tan lejos está un valor real de la predicción del modelo para ese valor. Un buen modelo debería, en promedio, tener mejores predicciones que la estimación ingenua de la media para todas las predicciones. Por lo tanto, la medida de variación (RMSE) debería reducir la aleatoriedad mejor que la SD.

Este argumento se aplica a otras medidas de error, no solo al RMSE, pero el RMSE es particularmente atractivo para la comparación directa con la SD porque sus fórmulas matemáticas son análogas.

Edición:

Alguien me preguntó fuera de línea por una cita que respalde la idea de que la SD es un punto de referencia para el RMSE. Personalmente, aprendí este principio por primera vez de Shmueli et al. 2016. Lo siento, pero no tengo el libro a mano, así que no puedo citar un número de página.

Shmueli, G., Bruce, P. C., Stephens, M., & Patel, N. R. (2016). Data Mining for Business Analytics: Concepts, Techniques, and Applications with JMP Pro (3rd Edition). Wiley.

1 votos

Esta es la mejor respuesta porque explica cómo la comparación podría ser útil en lugar de simplemente describir las diferencias.

7voto

Xiao-Feng Li Puntos 146

En caso de que estés hablando sobre el error cuadrático medio de la predicción, aquí puede ser: $$ \frac{\sum_i(y_i-\hat{y}_i)^2}{n-p}, $$ dependiendo de cuántos (p) parámetros se estimen para la predicción, es decir, una pérdida en el grado de libertad (DF).

La varianza de la muestra puede ser: $$ \frac{\sum_i(y_i - \bar{y}) ^2}{n-1}, $$ donde $\bar{y}$ es simplemente un estimador de la media de $y_i$.

Por lo tanto, puedes considerar la última fórmula (varianza de la muestra) como un caso especial de la primera (MSE), donde $\hat{y}_i = \bar{y}$ y la pérdida de DF es 1 ya que el cálculo de la media $\bar{y}$ es una estimación.

O, si no te importa mucho cómo se predice $\hat{y}_i$, pero quieres tener una idea aproximada del MSE de tu modelo, aún puedes usar la siguiente fórmula para estimarlo, $$ \frac{\sum_i(y_i-\hat{y}_i)^2}{n}, $$

que es la más fácil de calcular.

1 votos

No tengo privilegio para comentar la respuesta de @Chaconne, pero dudo que su última afirmación tenga un error tipográfico, donde dice: "Por lo tanto, la variabilidad medida por la varianza de la muestra es la distancia cuadrada promediada a la línea horizontal, lo cual podemos ver que es sustancialmente menor que la distancia cuadrada promediada a la línea". Sin embargo, en la figura de su respuesta, la predicción de los valores de y con la línea es bastante precisa, lo que significa que el ECM es pequeño, al menos mucho mejor que la "predicción" con un valor medio.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X