121 votos

Error absoluto medio O error cuadrático medio?

¿Por qué usar el Error Cuadrático Medio (RMSE) en lugar del Error Absoluto Medio (MAE)??

He estado investigando el error generado en un cálculo: inicialmente calculé el error como un Error Normalizado Cuadrado Medio Raíz.

Mirando un poco más de cerca, veo que al elevar al cuadrado el error se da más peso a los errores mayores que a los más pequeños, sesgando la estimación del error hacia el valor atípico. Esto es bastante obvio en retrospectiva.

¿En qué caso el Error Cuadrático Medio sería una medida de error más apropiada que el Error Absoluto Medio? Este último me parece más apropiado o ¿me estoy perdiendo algo?

Para ilustrar esto, he adjuntado un ejemplo a continuación:

  • El gráfico de dispersión muestra dos variables con una buena correlación,

  • los dos histogramas a la derecha muestran el error entre Y (observado) y Y (predicho) utilizando RMSE normalizado (arriba) y MAE (abajo).

gráficos comparando RMSE y MAE

No hay valores atípicos significativos en estos datos y MAE da un error más bajo que RMSE. ¿Hay alguna razón, aparte de MAE siendo preferible, para usar una medida de error sobre la otra?

106voto

Jonathan Christensen Puntos 2388

Esto depende de tu función de pérdida. En muchas circunstancias tiene sentido dar más peso a los puntos más alejados de la media, es decir, estar equivocado por 10 es más de dos veces peor que estar equivocado por 5. En tales casos el RMSE es una medida más apropiada del error.

Si estar equivocado por diez es justo el doble que estar equivocado por 5, entonces el MAE es más apropiado.

En cualquier caso, no tiene sentido comparar el RMSE y el MAE entre sí como haces en tu penúltima oración ("MAE da un error menor que el RMSE"). El MAE nunca será mayor que el RMSE debido a la forma en que se calculan. Solo tienen sentido en comparación con la misma medida de error: puedes comparar el RMSE para el método 1 con el RMSE para el método 2, o el MAE para el método 1 con el MAE para el método 2, pero no puedes decir que el MAE es mejor que el RMSE para el método 1 porque es más pequeño.

36voto

icelava Puntos 548

Aquí hay otra situación en la que desea usar (R)MSE en lugar de MAE: cuando la distribución condicional de sus observaciones es asimétrica y desea un ajuste no sesgado. El (R)MSE se minimiza por la media condicional, el MAE por la mediana condicional. Entonces, si minimiza el MAE, el ajuste estará más cercano a la mediana y sesgado.

Pero, todo esto realmente depende de su función de pérdida.

El mismo problema ocurre si está utilizando el MAE o (R)MSE para evaluar predicciones o pronósticos. Por ejemplo, los datos de ventas de bajo volumen típicamente tienen una distribución asimétrica. Si optimiza el MAE, es posible que se sorprenda al descubrir que el pronóstico óptimo en términos de MAE es un pronóstico plano cero.

Aquí hay una pequeña presentación que cubre esto, y aquí hay un comentario reciente invitado sobre la competencia de pronóstico M4 donde expliqué este efecto.

14voto

Richard77 Puntos 3352

ingresa la descripción de la imagen aquí

RMSE es una forma más natural de describir la pérdida en la distancia euclidiana. Por lo tanto, si la graficas en 3D, la pérdida está en forma de cono, como puedes ver arriba en verde. Esto también se aplica a dimensiones más altas, aunque es más difícil visualizarlo.

MAE se puede pensar como distancia de bloque de la ciudad. Realmente no es una forma tan natural de medir la pérdida, como puedes ver en la gráfica en azul.

5voto

Florian Puntos 1036

En resumen, si hay muchos valores atípicos, puede considerar usar el Error Absoluto Medio (también llamado Desviación Absoluta Media). RMSE es más sensible a los valores atípicos que el MAE. Pero cuando los valores atípicos son excepcionalmente raros (como en una curva en forma de campana), el RMSE funciona muy bien y generalmente se prefiere.

Tanto el RMSE como el MAE son formas de medir la distancia entre dos vectores: el vector de predicciones y el vector de valores objetivo. MAE corresponde a la norma l1 o norma de Manhattan, mientras que RMSE corresponde a la norma l2 o norma euclidiana. Cuanto mayor sea el índice de la norma, más se enfoca en los valores grandes y descuida los pequeños.

3voto

Christoph Hanck Puntos 4143

Cuando la predicción es menos focal que la estimación de parámetros, el teorema de Gauss-Markov puede ser relevante:

En un modelo lineal con errores esféricos, MCO - la solución al problema de minimización de error cuadrático medio - es eficiente en una clase de estimadores lineales no sesgados - existen condiciones (restrictivas, por supuesto) bajo las cuales "no se puede hacer mejor que MCO".

No estoy argumentando que esto justifique el uso de MCO la mayor parte del tiempo, pero definitivamente contribuye a por qué (especialmente porque es una buena excusa para enfocarse tanto en MCO en la enseñanza).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X