Es útil dar un paso atrás y olvidarse de la previsión aspecto de un minuto. Vamos a considerar sólo a la distribución de cualquier $F$ y asumir queremos resumir con un solo número.
Se aprende muy temprano en sus estadísticas las clases que el uso de la expectativa de $F$ como un número único resumen de minimizar la espera del error cuadrado.
La pregunta ahora es: ¿por qué el uso de la mediana de $F$ minimizar la espera absoluto error?
Para ello, me suelen recomendar "la Visualización de la Mediana como la Mínima Desviación de la Ubicación" por Hanley et al. (2001, El Estadístico Americano). Hicieron configurar un poco applet junto con su papel, que por desgracia, probablemente no funciona con los navegadores modernos, pero podemos seguir la lógica en el papel.
Supongamos que usted está de pie en frente de un banco de ascensores. Pueden encontrarse igualmente espaciados, o algunas de las distancias entre las puertas del ascensor se puede ser más grande que los demás (por ejemplo, algunos ascensores puede estar fuera de orden). En el frente de la cual ascensor debe usted tener el mínimo esperado pie cuando uno de los ascensores no llegan? Tenga en cuenta que este espera a pie desempeña el papel de la esperada error absoluto!
Suponga que tiene tres ascensores a, B y C.
- Si usted espera en frente de Una, usted puede necesitar a pie de la a a la B (si B llega), o de la a a la C (si C llega) - pasar de B!
- Si usted espera delante de B, usted necesita para caminar de B a a (si llega) o de B a C (si C llega).
- Si usted espera en frente de la C, que usted necesita a pie de C y a (si llega) - pasar de B o de la C a la B (si B llega).
Tenga en cuenta que a partir de la primera y la última posición de espera, hay una distancia AB en la primera, A.C. en la última posición - que usted necesita para caminar en múltiples casos de ascensores que llegan. Por lo tanto, su mejor apuesta es estar justo en frente de la media ascensor - independientemente de cómo los tres ascensores están organizados.
Aquí está la Figura 1 de Hanley et al.:
Esto se generaliza fácilmente a más de tres ascensores. O a los ascensores con diferentes posibilidades de llegar primero. O, de hecho, a countably infinitamente muchos de los ascensores. Por lo que podemos aplicar esta lógica a todas las distribuciones discretas y, a continuación, pasar al límite para llegar a distribuciones continuas.
A doble vuelta a la previsión, es necesario considerar que subyacen a su punto de pronóstico para un determinado momento en el futuro, cubo, hay una (generalmente implícita) de la densidad de pronóstico o predictivo de distribución, que se resumen mediante un número único punto de pronóstico. El argumento anterior muestra por qué la mediana de la predicción de la densidad de $\hat{F}$ es el punto de pronóstico que minimiza la espera error absoluto o MAE. (Para ser más precisos, cualquier mediana puede hacer, ya que no puede ser definido de forma exclusiva - en el ascensor ejemplo, esto corresponde a una incluso el número de ascensores.)
Y, por supuesto, la mediana puede ser muy distinta a la expectativa de si $\hat{F}$ es asimétrica. Un importante ejemplo es con bajo volumen de recuento de datos, especialmente intermitente-de series de tiempo. De hecho, si usted tiene un 50% o más de probabilidad de cero ventas, por ejemplo, si las ventas se distribuye Poisson con parámetro de $\lambda\leq \ln 2$, entonces usted va a minimizar su esperado error absoluto por la previsión de un televisor de cero, lo que es bastante intuitivo, incluso para los muy intermitente de series de tiempo. Yo escribí un pequeño artículo sobre este (Kolassa, 2016, Revista Internacional de la Previsión).
Por lo tanto, si usted sospecha que su distribución predictiva es (o debería ser) asimétrica, como en los dos casos anteriores, entonces si usted desea obtener imparcial expectativa de los pronósticos, el uso de la rmse. Si la distribución puede ser asumido simétrica (típicamente para el alto volumen de la serie), entonces la media y la mediana coinciden, y el uso de la mae también lo guiará la imparcialidad de las previsiones - y el MAE es más fácil de entender.
Del mismo modo, la minimización de la mape puede falsear los pronósticos, incluso para distribuciones simétricas. Esta primera respuesta de la mina contiene una simulación de ejemplo, con una distribución asimétrica estrictamente positivo (lognormally distribuido) de la serie de manera significativa puede ser el punto previsto el uso de tres diferentes puntos de pronósticos, dependiendo de si queremos minimizar el MSE, la MAE o el MAPE.