47 votos

¿Por qué minimizar el MAE conduce a pronosticar la mediana y no la media?

A partir de la Previsión: Principios y Práctica del libro de texto por Rob J Hyndman y George Athanasopoulos, específicamente la sección sobre la exactitud de medición:

Una previsión método que minimiza el MAE va a llevar a las previsiones de la la mediana, mientras que se minimiza el RMSE conducirá a las previsiones de la media

Alguien puede dar una explicación intuitiva de por qué minimizar el MAE lleva a la previsión de la mediana y no la media? Y ¿qué significa esto en la práctica?

He pedido a un cliente: "¿qué es más importante para usted para hacer pronósticos más precisos o para evitar pronósticos inexactos?". Dijo que el hecho significa que los pronósticos más precisos tienen mayor prioridad. Así, en este caso, debo usar MAE o RMSE? Antes de leer esta cita yo creía que el MAE va a ser mejor para tal condición. Y ahora dudo.

34voto

icelava Puntos 548

Es útil dar un paso atrás y olvidarse de la previsión aspecto de un minuto. Vamos a considerar sólo a la distribución de cualquier $F$ y asumir queremos resumir con un solo número.

Se aprende muy temprano en sus estadísticas las clases que el uso de la expectativa de $F$ como un número único resumen de minimizar la espera del error cuadrado.

La pregunta ahora es: ¿por qué el uso de la mediana de $F$ minimizar la espera absoluto error?

Para ello, me suelen recomendar "la Visualización de la Mediana como la Mínima Desviación de la Ubicación" por Hanley et al. (2001, El Estadístico Americano). Hicieron configurar un poco applet junto con su papel, que por desgracia, probablemente no funciona con los navegadores modernos, pero podemos seguir la lógica en el papel.

Supongamos que usted está de pie en frente de un banco de ascensores. Pueden encontrarse igualmente espaciados, o algunas de las distancias entre las puertas del ascensor se puede ser más grande que los demás (por ejemplo, algunos ascensores puede estar fuera de orden). En el frente de la cual ascensor debe usted tener el mínimo esperado pie cuando uno de los ascensores no llegan? Tenga en cuenta que este espera a pie desempeña el papel de la esperada error absoluto!

Suponga que tiene tres ascensores a, B y C.

  • Si usted espera en frente de Una, usted puede necesitar a pie de la a a la B (si B llega), o de la a a la C (si C llega) - pasar de B!
  • Si usted espera delante de B, usted necesita para caminar de B a a (si llega) o de B a C (si C llega).
  • Si usted espera en frente de la C, que usted necesita a pie de C y a (si llega) - pasar de B o de la C a la B (si B llega).

Tenga en cuenta que a partir de la primera y la última posición de espera, hay una distancia AB en la primera, A.C. en la última posición - que usted necesita para caminar en múltiples casos de ascensores que llegan. Por lo tanto, su mejor apuesta es estar justo en frente de la media ascensor - independientemente de cómo los tres ascensores están organizados.

Aquí está la Figura 1 de Hanley et al.:

Hanley et al., Figure 1

Esto se generaliza fácilmente a más de tres ascensores. O a los ascensores con diferentes posibilidades de llegar primero. O, de hecho, a countably infinitamente muchos de los ascensores. Por lo que podemos aplicar esta lógica a todas las distribuciones discretas y, a continuación, pasar al límite para llegar a distribuciones continuas.

A doble vuelta a la previsión, es necesario considerar que subyacen a su punto de pronóstico para un determinado momento en el futuro, cubo, hay una (generalmente implícita) de la densidad de pronóstico o predictivo de distribución, que se resumen mediante un número único punto de pronóstico. El argumento anterior muestra por qué la mediana de la predicción de la densidad de $\hat{F}$ es el punto de pronóstico que minimiza la espera error absoluto o MAE. (Para ser más precisos, cualquier mediana puede hacer, ya que no puede ser definido de forma exclusiva - en el ascensor ejemplo, esto corresponde a una incluso el número de ascensores.)

Y, por supuesto, la mediana puede ser muy distinta a la expectativa de si $\hat{F}$ es asimétrica. Un importante ejemplo es con bajo volumen , especialmente . De hecho, si usted tiene un 50% o más de probabilidad de cero ventas, por ejemplo, si las ventas se distribuye Poisson con parámetro de $\lambda\leq \ln 2$, entonces usted va a minimizar su esperado error absoluto por la previsión de un televisor de cero, lo que es bastante intuitivo, incluso para los muy intermitente de series de tiempo. Yo escribí un pequeño artículo sobre este (Kolassa, 2016, Revista Internacional de la Previsión).

Por lo tanto, si usted sospecha que su distribución predictiva es (o debería ser) asimétrica, como en los dos casos anteriores, entonces si usted desea obtener imparcial expectativa de los pronósticos, el uso de la . Si la distribución puede ser asumido simétrica (típicamente para el alto volumen de la serie), entonces la media y la mediana coinciden, y el uso de la también lo guiará la imparcialidad de las previsiones - y el MAE es más fácil de entender.

Del mismo modo, la minimización de la puede falsear los pronósticos, incluso para distribuciones simétricas. Esta primera respuesta de la mina contiene una simulación de ejemplo, con una distribución asimétrica estrictamente positivo (lognormally distribuido) de la serie de manera significativa puede ser el punto previsto el uso de tres diferentes puntos de pronósticos, dependiendo de si queremos minimizar el MSE, la MAE o el MAPE.

21voto

AlainD Puntos 126

Stephan respuesta da una explicación intuitiva de por qué la minimización de la absoluta promedio de error de darle la mediana. Ahora a la respuesta que de el MSE MAE o a través del mapa de uso:

El MAE es robusta, lo que significa que es menos sensible a los valores atípicos. Imaginar una serie con un error de un millón de tiempo mayor que lo que debería. En la BMV, que se tire de la previsión de un millón de/N veces (N, donde N es el número de puntos), mientras que el MAE solo se sacó para 1 unidad.

Por desgracia, el MAE no es única, por lo que pueden presentar algún tipo de comportamiento esquizofrénico.

Así que mi recomendación es primero hacer un MSE, a continuación, utiliza el MSE parámetros para iniciar el MAE de regresión.

En cualquier caso, comparar ambos pronóstico : si son muy diferentes, entonces hay algo mal olor en sus datos.

enter image description hereenter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X