$\newcommand{\predicted}{{\rm predicted}}\newcommand{\actual}{{\rm actual}}\newcommand{\Var}{{\rm Var}}$ De hecho, el error absoluto suele estar más cerca de lo que "importa" a la hora de hacer predicciones a partir de un modelo. Por ejemplo, si compra una acción esperando que su precio futuro sea $P_{\predicted}$ y su precio futuro es $P_{\actual}$ en cambio, pierdes dinero proporcional a $(P_{\predicted} - P_{\actual})$ no su cuadrado. Lo mismo ocurre en muchos otros contextos.
¿Por qué el error al cuadrado?
El error al cuadrado tiene muchas propiedades matemáticas interesantes. Haciéndome eco de otras respuestas aquí, yo diría que muchas de ellas son meramente "convenientes": podríamos optar por utilizar el error absoluto en su lugar si no planteara problemas técnicos a la hora de resolver problemas. Por ejemplo:
-
Si $X$ es una variable aleatoria, entonces el estimador de $X$ que minimiza el error cuadrático es la media, $E(X)$ . Por otra parte, el estimador que minimiza el error absoluto es la mediana, $m(X)$ . La media tiene propiedades mucho más agradables que la mediana; por ejemplo, $E(X + Y) = E(X) + E(Y)$ pero no existe una expresión general para $m(X + Y)$ .
-
Si tiene un vector $\vec X = (X_1, X_2)$ estimado por $\vec x = x_1, x_2$ entonces para el error al cuadrado no importa si se consideran los componentes por separado o juntos: $||\vec X - \vec x||^2 = (X_1 - x_1)^2 + (X_2 - x_2)^2$ por lo que el error al cuadrado de los componentes sólo se suma. No se puede hacer eso con el error absoluto. Esto significa que el error al cuadrado es independiente de las re-parametrizaciones por ejemplo, si define $\vec Y_1 = (X_1 + X_2, X_1 - X_2)$ entonces los estimadores de desviación mínima cuadrática para $Y$ y $X$ son iguales, pero los estimadores de desviación mínima absoluta no lo son.
-
Para variables aleatorias independientes, las varianzas (errores cuadrados esperados) se suman: $\Var(X + Y) = \Var(X) + \Var(Y)$ . No ocurre lo mismo con el error absoluto esperado.
-
Para una muestra de una distribución gaussiana multivariante (en la que la densidad de probabilidad es exponencial en la distancia al cuadrado desde la media), todas sus coordenadas son gaussianas, independientemente del sistema de coordenadas que se utilice. Para una distribución multivariante de Laplace (como una gaussiana pero con distancia absoluta, no al cuadrado), esto no es cierto.
-
El error cuadrático de un clasificador probabilístico es un regla de puntuación adecuada . Si tuvieras un oráculo que te dijera la probabilidad real de cada clase para cada elemento, y te estuvieran puntuando en función de tu puntuación Brier, tu mejor apuesta sería predecir lo que el oráculo te dijera para cada clase. Esto no es cierto para el error absoluto. (Por ejemplo, si el oráculo le dice que $P(Y=1) = 0.9$ y luego predecir que $P(Y=1) = 0.9$ arroja una puntuación esperada de $0.9\cdot 0.1 + 0.1 \cdot 0.9 = 0.18$ En su lugar, debería predecir que $P(Y=1) = 1$ para una puntuación esperada de $0.9\cdot 0 + 0.1 \cdot 1 = 0.1$ .)
Sin embargo, algunas coincidencias o conveniencias matemáticas relacionadas con el error al cuadrado son más importantes. No plantean problemas técnicos, sino que nos dan razones intrínsecas por las que minimizar el error al cuadrado puede ser una buena idea:
-
Al ajustar una distribución gaussiana a un conjunto de datos, el ajuste de máxima verosimilitud es el que minimiza el error al cuadrado, no el error absoluto.
-
Cuando se hace reducción de dimensionalidad, encontrar la base que minimiza el al cuadrado el error de reconstrucción arroja análisis de componentes principales que es fácil de calcular, independiente de las coordenadas y tiene una interpretación natural para las distribuciones gaussianas multivariantes (encontrar los ejes de la elipse que forma la distribución). Existe una variante llamada "PCA robusto" que a veces se aplica para minimizar el error absoluto de reconstrucción, pero parece estar menos estudiada y ser más difícil de entender y calcular.
Una mirada más profunda
Cabe preguntarse si existe alguna verdad matemática profunda que subyazca a las múltiples conveniencias del error al cuadrado. Por lo que yo sé, hay unas cuantas (que están relacionadas en cierto sentido, pero no son, diría yo, lo mismo):
Diferenciabilidad
El error al cuadrado es diferenciable en todas partes mientras que el error absoluto no lo es (su derivada es indefinida a 0). Esto hace que el error al cuadrado se preste más a las técnicas de optimización matemática . Para optimizar el error al cuadrado, basta con establecer su derivada igual a 0 y resolver; para optimizar el error absoluto a menudo se requieren técnicas más complejas.
Productos interiores
El error al cuadrado es inducido por un producto interior en el espacio subyacente. Un producto interior es básicamente una forma de "proyectar vectores $x$ a lo largo del vector $y$ ," o calcular "cuánto cuesta $x$ apuntan en la misma dirección que $y$ ." En dimensiones finitas es el producto interior estándar (euclidiano) $\langle a, b\rangle = \sum_i a_ib_i$ . Los productos internos son los que nos permiten pensar geométricamente sobre un espacio, porque dan una noción de:
- un ángulo recto ( $x$ y $y$ son ángulos rectos si $\langle x, y\rangle = 0$ );
- y una longitud (la longitud de $x$ es $||x|| = \sqrt{\langle x, x\rangle}$ ).
Por "el error al cuadrado es inducido por el producto interior euclidiano" quiero decir que el error al cuadrado entre $x$ y $y$ es $||x-y||$ la distancia euclidiana entre ellos. De hecho, el producto interno euclidiano es, en cierto sentido, el "único producto interno posible" independiente del eje en un espacio vectorial de dimensiones finitas, lo que significa que el error al cuadrado tiene propiedades geométricas únicamente agradables.
Para las variables aleatorias, de hecho, se puede definir es un producto interno similar: $\langle X, Y\rangle = E(XY)$ . Esto significa que podemos pensar en una "geometría" de variables aleatorias, en la que dos variables forman un "ángulo recto" si $E(XY) = 0$ . No por casualidad, la "longitud" de $X$ es $E(X^2)$ que está relacionada con su varianza. De hecho, en este marco, "las varianzas independientes se suman" no es más que una consecuencia del Teorema de Pitágoras:
\begin{align} \Var(X + Y) &= ||(X - \mu_X)\, + (Y - \mu_Y)||^2 \\ &= ||X - \mu_X||^2 + ||Y - \mu_Y||^2 \\ &= \Var(X)\quad\ \ \, + \Var(Y). \end{align}
Más allá del error cuadrático
Dadas estas bonitas propiedades matemáticas, ¿alguna vez no ¿quieres utilizar el error al cuadrado? Bueno, como mencioné al principio, a veces el error absoluto se acerca más a lo que nos "importa" en la práctica. Por ejemplo, si los datos tienen colas más gruesas que la de Gauss, minimizar el error cuadrático puede dar demasiada importancia a los puntos periféricos.
El error absoluto es menos sensible a estos valores atípicos. (Por ejemplo, si se observa un valor atípico en la muestra, la media de minimización del error cuadrático cambia proporcionalmente a la magnitud del valor atípico, pero apenas cambia la mediana de minimización del error absoluto). Y aunque el error absoluto no goza de las mismas propiedades matemáticas que el error cuadrático, eso significa que los problemas de error absoluto son más complejos que los de error cuadrático. más difícil de resolver no es que sean objetivamente peores en algún sentido. El resultado es que, a medida que han ido avanzando los métodos computacionales, hemos podido resolver numéricamente problemas con errores absolutos, lo que ha dado lugar al surgimiento del subcampo de la métodos estadísticos robustos .
De hecho, existe una correspondencia bastante buena entre algunos métodos de error cuadrático y de error absoluto:
Squared error | Absolute error
========================|============================
Mean | Median
Variance | Expected absolute deviation
Gaussian distribution | Laplace distribution
Linear regression | Quantile regression
PCA | Robust PCA
Ridge regression | LASSO
A medida que mejoremos en los métodos numéricos modernos, sin duda encontraremos otras técnicas útiles basadas en el error absoluto, y la brecha entre los métodos de error cuadrático y de error absoluto se reducirá. Pero debido a la conexión entre el error cuadrático y la distribución de Gauss, no creo que desaparezca nunca por completo.
0 votos
Véase también este para más información
0 votos
(En general, no creo que se deba reabrir este hilo. Sin embargo, estoy medio inclinado a tratar de tener que reabrirlo sólo para que yo pudiera conceder una recompensa a @BenKuhn respuesta a continuación, y luego volver a cerrarlo).
0 votos
Sí, por favor. Ha sido una respuesta increíblemente detallada. Me encantaría recompensarle por ello.