38 votos

¿Por qué se utiliza el error al cuadrado como norma cuando el error absoluto es más relevante para la mayoría de los problemas?

Reconozco que partes de este tema han sido discutidas en este foro. Algunos ejemplos:

Lo que sigo sin entender es por qué la regresión OLS sigue siendo la solución por defecto al problema de la regresión lineal. Me parece que en la mayoría de las situaciones prácticas, los costes asociados a los errores son lineales o aproximadamente lineales. Si pido 2 piezas de más, incurro en el doble de costes innecesarios que si pido 1 pieza de más. Por lo tanto, la solución óptima que produce OLS no se corresponderá con una solución óptima en la realidad. Entiendo que, en general, se puede minimizar cualquier métrica de error que tenga más sentido en la situación. Mi pregunta no es sobre si es posible o una buena idea utilizar MAE en un caso específico; es sobre la convención. ¿Por qué se minimiza el MSE en casi todos los casos sencillos en lugar del MAE cuando el coste real suele ser lineal?

Los casos que he visto para minimizar el MSE son los siguientes:

  1. El MSE es continuamente diferenciable
  2. La cuadratura penaliza más los errores grandes
  3. Tiene sentido porque suponemos que los errores se distribuyen normalmente

Sin embargo, si podemos realizar la regresión con errores absolutos fácilmente, y nos preocupa principalmente la predicción, no veo cómo esos puntos llevan a nadie a elegir los errores al cuadrado. Si son para elegir una convención, ¿no es mejor el error absoluto?

Este post ha recibido muchas respuestas excelentes que me han sido útiles. De esas respuestas, y de las respuestas en otros lugares que los mods creen que responden a mi pregunta, ninguna de ellas aborda exactamente la verdadera fuente de mi confusión, excepto la respuesta de @richard-hardy.

17voto

Aksakal Puntos 11351

TLDR; cuando no se sabe nada sobre el coste real del error para el usuario del modelo, el MSE es una mejor opción por defecto en comparación con el MAE porque, en mi opinión, es más fácil de manipular analíticamente y es más probable que coincida con el coste real del error.

Es una gran pregunta. Me gusta que empieces con el deseo de hacer que tu función de pérdidas coincida con los costes reales. En mi opinión, así es como debería hacerse idealmente. Sin embargo, no es práctico derivar la función de coste de los costes reales cada vez que se construye un modelo, por lo que tendemos a utilizar una de las funciones de pérdida disponibles en el software. La función de mínimos cuadrados es una de las más populares, sobre todo por su comodidad matemática. Es más fácil tratarla analíticamente. Además, en algunos casos los mínimos cuadrados producen una previsión puntual insesgada, es decir $E[y]-\hat y=0$ que a menudo se considera deseable por razones sentimentales.

Dicho esto, debo argumentar que no me parece evidente que la pérdida de valor absoluto sea más realista. Considere, las sobredosis de drogas - son mucho más costosas que las subdosis en algunas situaciones: no drogarse lo suficiente vs morir. Dentro de su ejemplo de las piezas, considere lo siguiente: ¿qué pasaría si subestimara el coste de las piezas para ser \$1, and entered into a forward agreement to deliver one million parts one month later at \$ 1,1 sabiendo que dentro de un mes tendrás 1 millón de dólares. ¡Vas a obtener un 10% de beneficio!

Entonces llega el día y las piezas son realmente $1.2 a piece. So, you are not only going to incur loss of \$ 100K, pero también le faltarán fondos para entregar 1M de piezas. Por lo tanto, se ve obligado a incumplir y a declararse en quiebra, lo que resulta muy caro. Por otro lado, si se sobreestima el coste de las piezas, se renuncia a algunos beneficios, pero no se llega a una situación de insolvencia o crisis de liquidez.

Se trata de una situación muy común en las empresas, donde las pérdidas son asimétricas y muy poco lineales, con costes que aumentan rápidamente en una dirección del error de previsión, pero no en la otra. Por lo tanto, yo diría que la pérdida absoluta, que es simétrica y tiene pérdidas lineales en el error de previsión, no es realista en la mayoría de las situaciones empresariales. Además, aunque sea simétrica, la pérdida al cuadrado es al menos no lineal.

Sin embargo, las diferencias entre las funciones de pérdida absoluta y al cuadrado no terminan aquí. Por ejemplo, se puede demostrar que el punto óptimo de previsión en la pérdida absoluta es la mediana, mientras que para la pérdida cuadrada es la media.

Creo que la siguiente función de pérdida es más adecuada para la previsión empresarial en muchos casos en los que el error de previsión es excesivo $e=y-\hat y$ puede llegar a ser muy costoso muy rápidamente: $$\mathcal L(e,\hat y)=|\ln\left(1+\frac e {\hat y}\right)|$$ En este caso, si se prevé una cantidad no negativa $y$ Entonces, la sobreprevisión es potencialmente devastadora. Imagínese que usted es un banco que pronostica el volumen de depósitos, y el volumen real de depósitos resulta ser mucho más bajo de lo que esperaba. Esto puede tener graves consecuencias. Este tipo de función de pérdida asimétrica conducirá a una tendencioso previsión de puntos óptimos, es decir $E[y]-\hat y\ne 0$ Pero eso es exactamente lo que se quiere: hay que errar en la previsión de este tipo de problemas empresariales.

17voto

Richard Hardy Puntos 6099

Las 5 primeras respuestas no distinguen entre pérdida de estimación 1 y pérdida de predicción 2 algo que es crucial para responder a la pregunta. A priori, no hay ninguna razón para que ambas coincidan. Discutiré ambos tipos de pérdida en el contexto de la predicción puntual mediante regresión lineal. La discusión puede extenderse a otros modelos distintos de la regresión lineal y a otras tareas distintas de la predicción puntual, pero la esencia sigue siendo la misma.

Configurar

Supongamos que se enfrenta a un problema de predicción en el que el modelo es $$ y=X\beta+\varepsilon $$ con $\varepsilon\sim D(0,\sigma)$ , $D$ siendo alguna distribución de probabilidad con ubicación $0$ y escala $\sigma$ . Su objetivo es predecir $y_0$ dado $x_0$ y su predicción de puntos será $\hat y_0$ en función de $x_0$ La muestra de datos, el modelo y la función de penalización (el negativo de la recompensa) definida sobre el error de predicción. La función de penalización a la que se enfrenta es $L_P(y-\hat y)$ . Tiene un mínimo en cero (el valor $L_P(0)$ puede ponerse a cero sin pérdida de generalidad) y es no decreciente a ambos lados de cero; ésta es una caracterización típica de un pérdida de predicción función. Puede elegir libremente un pérdida de estimación función $L_E(\cdot)$ y una función de predicción puntual $y_hat_0$ . ¿Cuáles son las opciones óptimas para cada una? Esto dependerá de la distribución de errores $D$ y la función de pérdida de predicción $L_P(\cdot)$ .

Pérdida de estimación

La pérdida de estimación especifica cómo se obtienen las estimaciones de los parámetros de un modelo a partir de los datos de la muestra. En nuestro ejemplo de regresión lineal, se refiere a la estimación de $\beta$ y $\sigma$ . Se pueden estimar minimizando la suma de los residuos al cuadrado (OLS) entre el $y$ y los correspondientes valores ajustados, suma de residuos absolutos (regresión cuantílica en la mediana) u otra función. La elección de la pérdida de estimación puede venir determinada por la distribución de los errores del modelo. El estimador más preciso en cierto sentido técnico* se conseguirá con la pérdida de estimación que hace que el estimador de parámetros sea el estimador de máxima verosimilitud (ML). Si los errores del modelo se distribuyen normalmente ( $D$ es normal), será OLS; si se distribuyen según una distribución de Laplace ( $D$ es Laplace), se tratará de una regresión cuantílica a la media; etc.
*Para simplificar, dado un estimador ML, puede esperar estimaciones de parámetros más precisas de su modelo que las proporcionadas por estimadores alternativos.

Pérdida de predicción

La pérdida de predicción especifica cómo se penalizan los errores de predicción. No se elige, se da. (Normalmente, es el cliente quien lo especifica. Si el cliente no es capaz de hacerlo matemáticamente, el analista debe esforzarse por hacerlo escuchando atentamente los argumentos del cliente). Si el error de predicción hace que la pérdida del cliente (por ejemplo, la pérdida financiera) crezca de forma cuadrática y simétrica en torno a cero, se está ante una pérdida de predicción cuadrada. Si la pérdida del cliente crece de forma lineal y simétrica respecto a cero, nos encontramos ante una pérdida de predicción absoluta. Hay muchas otras posibilidades de tipos de pérdida de predicción a las que puede enfrentarse también.

Predicción

Dadas las estimaciones de los parámetros del modelo y los valores de los regresores del punto de interés, $x_0$ , debe elegir la predicción de puntos $\hat y_0$ basado en la pérdida de predicción. Para la pérdida cuadrada, se elegirá la media estimada de $y_0$ como la verdadera media minimiza la pérdida cuadrada en promedio (donde el promedio se toma a través de muestras aleatorias de $y_0$ con sujeción a $x=x_0$ ). Para la pérdida absoluta, se elegirá la mediana estimada. Para otra función de pérdida, elegirá otras características de la distribución de $y_0$ que ha modelado.

Volviendo a su pregunta

¿Por qué la gente suele elegir el error cuadrado en lugar del error absoluto, o la correspondiente pérdida cuadrada en lugar de la pérdida absoluta, como pérdida de estimación ? Porque los errores normales ( $D$ siendo normal) son comunes en las aplicaciones, Podría decirse que más que los errores de Laplace ( $D$ siendo Laplace). También hacen que los estimadores de regresión sean analíticamente manejables. Sin embargo, no son mucho más fáciles de calcular. La complejidad computacional de MCO (correspondiente a la estimación ML bajo errores normales) frente a la regresión cuantílica en la mediana (correspondiente a la estimación ML bajo errores de Laplace) no son muy diferentes. Por lo tanto, hay algunos argumentos sólidos para la elección de OLS sobre la regresión cuantílica en la mediana, o el error cuadrado sobre el error absoluto.

¿Por qué la gente elige el error cuadrado, o la correspondiente pérdida cuadrada, como pérdida de predicción ? Tal vez para simplificar. Como algunas de las respuestas anteriores podrían haber mencionado, hay que elegir alguna línea de base para una exposición de libro de texto; no se pueden discutir todos los casos posibles en detalle. Sin embargo, los argumentos para preferir la pérdida cuadrada a la pérdida absoluta como pérdida de predicción son menos convincentes que en el caso de la pérdida de estimación. Es probable que la pérdida de predicción real sea asimétrica (como se ha discutido en algunas respuestas anteriores) y no es más probable que crezca cuadráticamente que linealmente con el error de predicción. Por supuesto, en la práctica se debe seguir la especificación del cliente sobre la pérdida de predicción. Mientras tanto, en ejemplos casuales y discusiones en las que no hay un cliente concreto alrededor, no veo un argumento fuerte para preferir el error cuadrado sobre el error absoluto.

1 También se conoce como coste de estimación, pérdida de ajuste, coste de ajuste, pérdida de formación, coste de formación.
2 También se conoce como coste de predicción, pérdida de evaluación, coste de evaluación.

12voto

Zizzencs Puntos 1358

Creo que la razón es más sociológica que estadística.

Versión corta: Lo hacemos así porque siempre lo hemos hecho.

La versión más larga: Históricamente, podríamos no hacer muchas de las cosas que ahora damos por sentadas. Muchas cosas requieren un uso intensivo de ordenadores y Ronald Fisher nació antes que Alan Turing.

Así que la gente hizo una regresión OLS - mucho. Y la gente leía esas regresiones en todo tipo de campos sustantivos y los cursos de estadística en esos campos enseñaban ANOVA/regresión y no métodos más modernos.

Además, los editores de las revistas aprendieron esos métodos y no otros, y muchos rechazarán artículos con métodos modernos porque, por ejemplo, "no se entenderán".

Muchos profesionales también rechazan los métodos modernos; yo solía ser una especie de friki del análisis de datos en un hospital. Los médicos venían a pedirme consejo y, si no era "haz una regresión OLS" o "haz una regresión logística", rechazaban mi consejo.

Me doctoré en psicometría y muchos de mis profesores de otras ramas de la psicología no conocían ningún método moderno (uno decía: "basta con informar del valor p, eso es lo que importa").

3voto

Blackberry Puntos 46

Creo que vale la pena dar un paso atrás y considerar lo que implican las dos pérdidas.

Desde un punto de vista probabilístico, la función de pérdida es equivalente a la función de probabilidad logarítmica supuesta y, por tanto, debería corresponder a cómo creemos que se distribuyen nuestras mediciones en torno a sus valores "verdaderos" desconocidos.

Como usted dice, en el caso de OLS esto equivale a asumir una probabilidad gaussiana, mientras que una función de pérdida de error absoluto equivale a una probabilidad laplaciana. Las probabilidades gaussianas se ajustan mucho más a la vida real como consecuencia del teorema del límite central.

En general, nuestras predicciones mejoran si nuestro modelo supuesto (e implícitamente generativo) se acerca lo más posible a la realidad. En muchos (¿la mayoría?) de los casos, esto mejorará la precisión de la predicción según cualquier métrica razonable (incluyendo, por ejemplo, el error medio absoluto). Es mucho más frecuente que la suposición de una probabilidad gaussiana lo consiga.

2voto

Adam Puntos 1

Si los errores son independientes y siguen la distribución normal (de cualquier varianza pero consistente), entonces la suma de errores al cuadrado corresponde a su probabilidad/verosimilitud conjunta.

$\Pi e^{-x_i^2}=e^{-\Sigma x_i^2}$

Por lo tanto, en esas condiciones, minimizar la suma de errores cuadrados es lo mismo que maximizar la probabilidad.


Si se necesita una predicción que minimice el coste (cuando la métrica del coste es diferente del MSE), el enfoque general/exacto sería minimizar explícitamente el coste esperado sobre toda la distribución de modelos ponderados por sus probabilidades (o probabilidades si se tiene conocimiento previo). Esto desvincula completamente el problema de la minimización del coste esperado del problema de la estimación en presencia de ruido.

Supongamos que se mide una cantidad constante en presencia de ruido gaussiano. Incluso si su métrica de coste para los resultados futuros es el MAE, preferirá predecir con la media (minimizando el MSE pasado) que con la mediana (minimizando el MAE pasado), si sabe que la cantidad es constante y el ruido de la medición es gaussiano.

Ejemplo

Considere la siguiente distribución de los impactos producidos por un arma fijada mecánicamente en su lugar. Usted coloca un círculo de un tamaño determinado en algún lugar del blanco. Si el siguiente disparo cae completamente dentro de su círculo, usted gana, si no, pierde. La función de coste es de la forma $f_C(x,y)=sign((x-x_C)^2+(y-y_C)^2-R^2)$ .

enter image description here

Si se minimiza $\sum_i f_C(x_i,y_i)$ , se colocaría el círculo en la posición azul, que contiene por completo el número máximo de disparos pasados. Pero si se sabe que el arma está fija en su lugar y el error es gaussiano, se colocaría el círculo en la posición verde, centrado en la media/centroide de los datos (minimizando el MSE), ya que se está optimizando la ganancia esperada futura, no la ganancia media pasada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X