Reconozco que partes de este tema han sido discutidas en este foro. Algunos ejemplos:
- ¿Es la minimización del error al cuadrado equivalente a la minimización del error absoluto? ¿Por qué el error al cuadrado es más popular que este último?
- ¿Por qué elevar al cuadrado la diferencia en lugar de tomar el valor absoluto en la desviación estándar?
Lo que sigo sin entender es por qué la regresión OLS sigue siendo la solución por defecto al problema de la regresión lineal. Me parece que en la mayoría de las situaciones prácticas, los costes asociados a los errores son lineales o aproximadamente lineales. Si pido 2 piezas de más, incurro en el doble de costes innecesarios que si pido 1 pieza de más. Por lo tanto, la solución óptima que produce OLS no se corresponderá con una solución óptima en la realidad. Entiendo que, en general, se puede minimizar cualquier métrica de error que tenga más sentido en la situación. Mi pregunta no es sobre si es posible o una buena idea utilizar MAE en un caso específico; es sobre la convención. ¿Por qué se minimiza el MSE en casi todos los casos sencillos en lugar del MAE cuando el coste real suele ser lineal?
Los casos que he visto para minimizar el MSE son los siguientes:
- El MSE es continuamente diferenciable
- La cuadratura penaliza más los errores grandes
- Tiene sentido porque suponemos que los errores se distribuyen normalmente
Sin embargo, si podemos realizar la regresión con errores absolutos fácilmente, y nos preocupa principalmente la predicción, no veo cómo esos puntos llevan a nadie a elegir los errores al cuadrado. Si son para elegir una convención, ¿no es mejor el error absoluto?
Este post ha recibido muchas respuestas excelentes que me han sido útiles. De esas respuestas, y de las respuestas en otros lugares que los mods creen que responden a mi pregunta, ninguna de ellas aborda exactamente la verdadera fuente de mi confusión, excepto la respuesta de @richard-hardy.