21 votos

¿Alguien puede dar la intuición detrás del Error Absoluto Medio y la Mediana?

No entiendo la intuición detrás de por qué la mediana es la mejor estimación si vamos a juzgar la precisión de la predicción usando el Error Absoluto Medio. Supongamos que tienes una variable aleatoria $X$ y quieres predecir cuál será el siguiente $X$. Denotemos tu predicción como d.

Bajo el Error Cuadrático Medio, que es:

$\text{MSE} = (X - d)^2$

Sabemos que el MSE esperado, o la suma de los MSEs, se minimiza cuando $d$ es igual a la media o $E[X]$. Esto tiene sentido intuitivamente. El mejor predictor de una variable aleatoria es su media.

Sin embargo, bajo el Error Absoluto Medio, que es:

$\text{MAE} = |X - d|$

El MAE esperado o la suma de los MAEs se minimiza cuando $d$ es igual a la mediana de la variable aleatoria. Aunque el libro que estoy leyendo tiene una prueba sofisticada para mostrar por qué este es el caso, no entiendo intuitivamente por qué la mediana sería la mejor predicción. Tampoco entiendo por qué la media (o mediana) no sería la mejor elección para ambos.

1 votos

¿Por qué tiene sentido intuitivo que la media minimice el error cuadrático medio? Tienes razón, pero si no supiera eso, podría creer que la mediana lo hace.

1 votos

Como ejemplo concreto simple, intenta minimizar el error absoluto para el conjunto de datos $\{-1, 0, 3\}$, que tiene una mediana de 0 y una media de 1. Al "deslizar" tu estimación de izquierda a derecha, deberías ganar intuición sobre por qué la mediana es la mejor elección.

0 votos

@Dave Supongo que la forma en que lo pensé es que, si en promedio X produce E[X], y si tu estimación es E[X], entonces en promedio el MSE será 0 por lo que se minimiza. No estoy seguro si esa es la intuición correcta, pero puedes ver por qué cuando uso esa lógica en MAE, no tiene sentido.

36voto

Vitaly Zdanevich Puntos 95

Aquí hay un argumento intuitivo con matemáticas simples. Digamos que tenemos una $d$ que pretende minimizar el MAE de los puntos $x_i$. Y, digamos que tenemos $n_l$ y $n_r$ puntos a su izquierda y derecha. Si movemos $d$ ligeramente hacia la izquierda, es decir, una cantidad de $\Delta$, entonces todas las diferencias absolutas a la izquierda disminuirán en $\Delta$, y todas las diferencias absolutas a la derecha aumentarán en $\Delta$, lo que conlleva una disminución neta de $(n_l-n_r)\Delta$ en el MAE. Si $n_l\neq n_r$, $d$ siempre tiene incentivo para moverse hacia la izquierda o la derecha, porque cada movimiento ya sea disminuye o aumenta el MAE. Por ejemplo, si $n_r, entonces nos movemos a la izquierda porque la disminución neta en el MAE es $(n_l-n_r)\Delta$, y si $n_l nos movemos a la derecha porque la disminución neta será $(n_r-n_l)\Delta$. Esto continúa hasta que llegamos a $n_l=n_r$, lo cual es satisfecho por la mediana.

7voto

Steff Muller Puntos 16

Gunes ya ha presentado una respuesta maravillosa con fórmulas simples. Aquí hay un ejemplo numérico para probarlo: considera el conjunto {1, 1, 1, 1, 1, 1, 1, 1, 1, 11}; es decir, nueve 1s y un solo 11. La media es 2, la mediana es 1.

Cuando consideras la suma de valores absolutos como la suma de distancias, la mediana tendrá una distancia de 0 a nueve valores pero una distancia de 10 al valor final, haciendo un total de suma de 10. Al mover nuestro valor de comparación una unidad a 2 (la media), aumentaremos la suma de distancias en 1 de cada uno de los nueve valores y la disminuiremos en 1 del valor final único, haciendo un total de suma de 17.

Aplicando las fórmulas de gunes, cuando te mueves hacia la derecha desde la mediana por cualquier pequeño valor de $\Delta$, añades $9 * \Delta$ y restas $1 * \Delta$, lo que significa que la suma aumenta en un total de $8 * \Delta$. Si te mueves hacia la izquierda, entonces la suma aumenta en un total de $10 * \Delta$.

Por intuición, te detienes de mover hacia la izquierda o hacia la derecha cuando el número de valores a la izquierda y a la derecha son iguales. Esto puede ser la mediana (valor central) para un número impar de valores o en cualquier lugar entre los dos valores centrales cuando hay un número par de valores.

Para demostrar el punto final: considera el conjunto {1, 2, 3, 4}. Aquí la mediana es 2.5 por definición. Pero puedes usar un punto entre los dos valores centrales (inclusive) de 2 y 3. La suma de distancias sería 4 para el rango [2, 3] (para 2, 2.5, 3 o cualquier cosa intermedia).

0 votos

También pensé en ese ejemplo, pero luego me pregunté por qué no sigue el MSE la misma lógica. 9/10 las desviaciones al cuadrado serán 0 mientras que 1/10 la desviación al cuadrado será 100. Supongo que "elevar al cuadrado" hace algo que magnifica las diferencias, y por lo tanto realmente debería profundizar en comprender las propiedades de los exponentes para entender la intuición, tal vez.

0 votos

+1 para los ejemplos.

-2voto

Craig Hicks Puntos 95

La evaluación de "mejor" depende del conocimiento previo de la distribución.

El ECM es apropiado cuando la distribución es Gaussiana.

Supongamos que estás tomando medidas de un sistema que tiene valores atípicos aleatorios "ocasionales" pero que por lo demás es correcto.

0,0,0,0,[número entero aleatorio],0,[número entero aleatorio],0,0,0,0

Entonces, la estimación "mejor" es la mediana, aunque todavía existe la posibilidad de error.

La mediana es robusta con respecto a valores atípicos que no encajan en una distribución gaussiana, y a menudo ocurren en la vida real.

No es raro eliminar valores atípicos, por ejemplo, mantener los 2/3 medios de los datos, y utilizar criterios de ECM en esa parte para calcular la estimación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X