Las 5 primeras respuestas no distinguen entre pérdida de estimación 1 y pérdida de predicción 2 algo que es crucial para responder a la pregunta. A priori, no hay ninguna razón para que ambas coincidan. Discutiré ambos tipos de pérdida en el contexto de la predicción puntual mediante regresión lineal. La discusión puede extenderse a otros modelos distintos de la regresión lineal y a otras tareas distintas de la predicción puntual, pero la esencia sigue siendo la misma.
Configurar
Supongamos que se enfrenta a un problema de predicción en el que el modelo es $$ y=X\beta+\varepsilon $$ con $\varepsilon\sim D(0,\sigma)$ , $D$ siendo alguna distribución de probabilidad con ubicación $0$ y escala $\sigma$ . Su objetivo es predecir $y_0$ dado $x_0$ y su predicción de puntos será $\hat y_0$ en función de $x_0$ La muestra de datos, el modelo y la función de penalización (el negativo de la recompensa) definida sobre el error de predicción. La función de penalización a la que se enfrenta es $L_P(y-\hat y)$ . Tiene un mínimo en cero (el valor $L_P(0)$ puede ponerse a cero sin pérdida de generalidad) y es no decreciente a ambos lados de cero; ésta es una caracterización típica de un pérdida de predicción función. Puede elegir libremente un pérdida de estimación función $L_E(\cdot)$ y una función de predicción puntual $y_hat_0$ . ¿Cuáles son las opciones óptimas para cada una? Esto dependerá de la distribución de errores $D$ y la función de pérdida de predicción $L_P(\cdot)$ .
Pérdida de estimación
La pérdida de estimación especifica cómo se obtienen las estimaciones de los parámetros de un modelo a partir de los datos de la muestra. En nuestro ejemplo de regresión lineal, se refiere a la estimación de $\beta$ y $\sigma$ . Se pueden estimar minimizando la suma de los residuos al cuadrado (OLS) entre el $y$ y los correspondientes valores ajustados, suma de residuos absolutos (regresión cuantílica en la mediana) u otra función. La elección de la pérdida de estimación puede venir determinada por la distribución de los errores del modelo. El estimador más preciso en cierto sentido técnico* se conseguirá con la pérdida de estimación que hace que el estimador de parámetros sea el estimador de máxima verosimilitud (ML). Si los errores del modelo se distribuyen normalmente ( $D$ es normal), será OLS; si se distribuyen según una distribución de Laplace ( $D$ es Laplace), se tratará de una regresión cuantílica a la media; etc.
*Para simplificar, dado un estimador ML, puede esperar estimaciones de parámetros más precisas de su modelo que las proporcionadas por estimadores alternativos.
Pérdida de predicción
La pérdida de predicción especifica cómo se penalizan los errores de predicción. No se elige, se da. (Normalmente, es el cliente quien lo especifica. Si el cliente no es capaz de hacerlo matemáticamente, el analista debe esforzarse por hacerlo escuchando atentamente los argumentos del cliente). Si el error de predicción hace que la pérdida del cliente (por ejemplo, la pérdida financiera) crezca de forma cuadrática y simétrica en torno a cero, se está ante una pérdida de predicción cuadrada. Si la pérdida del cliente crece de forma lineal y simétrica respecto a cero, nos encontramos ante una pérdida de predicción absoluta. Hay muchas otras posibilidades de tipos de pérdida de predicción a las que puede enfrentarse también.
Predicción
Dadas las estimaciones de los parámetros del modelo y los valores de los regresores del punto de interés, $x_0$ , debe elegir la predicción de puntos $\hat y_0$ basado en la pérdida de predicción. Para la pérdida cuadrada, se elegirá la media estimada de $y_0$ como la verdadera media minimiza la pérdida cuadrada en promedio (donde el promedio se toma a través de muestras aleatorias de $y_0$ con sujeción a $x=x_0$ ). Para la pérdida absoluta, se elegirá la mediana estimada. Para otra función de pérdida, elegirá otras características de la distribución de $y_0$ que ha modelado.
Volviendo a su pregunta
¿Por qué la gente suele elegir el error cuadrado en lugar del error absoluto, o la correspondiente pérdida cuadrada en lugar de la pérdida absoluta, como pérdida de estimación ? Porque los errores normales ( $D$ siendo normal) son comunes en las aplicaciones, Podría decirse que más que los errores de Laplace ( $D$ siendo Laplace). También hacen que los estimadores de regresión sean analíticamente manejables. Sin embargo, no son mucho más fáciles de calcular. La complejidad computacional de MCO (correspondiente a la estimación ML bajo errores normales) frente a la regresión cuantílica en la mediana (correspondiente a la estimación ML bajo errores de Laplace) no son muy diferentes. Por lo tanto, hay algunos argumentos sólidos para la elección de OLS sobre la regresión cuantílica en la mediana, o el error cuadrado sobre el error absoluto.
¿Por qué la gente elige el error cuadrado, o la correspondiente pérdida cuadrada, como pérdida de predicción ? Tal vez para simplificar. Como algunas de las respuestas anteriores podrían haber mencionado, hay que elegir alguna línea de base para una exposición de libro de texto; no se pueden discutir todos los casos posibles en detalle. Sin embargo, los argumentos para preferir la pérdida cuadrada a la pérdida absoluta como pérdida de predicción son menos convincentes que en el caso de la pérdida de estimación. Es probable que la pérdida de predicción real sea asimétrica (como se ha discutido en algunas respuestas anteriores) y no es más probable que crezca cuadráticamente que linealmente con el error de predicción. Por supuesto, en la práctica se debe seguir la especificación del cliente sobre la pérdida de predicción. Mientras tanto, en ejemplos casuales y discusiones en las que no hay un cliente concreto alrededor, no veo un argumento fuerte para preferir el error cuadrado sobre el error absoluto.
1 También se conoce como coste de estimación, pérdida de ajuste, coste de ajuste, pérdida de formación, coste de formación.
2 También se conoce como coste de predicción, pérdida de evaluación, coste de evaluación.