38 votos

¿Por qué se utiliza el error al cuadrado como norma cuando el error absoluto es más relevante para la mayoría de los problemas?

Reconozco que partes de este tema han sido discutidas en este foro. Algunos ejemplos:

Lo que sigo sin entender es por qué la regresión OLS sigue siendo la solución por defecto al problema de la regresión lineal. Me parece que en la mayoría de las situaciones prácticas, los costes asociados a los errores son lineales o aproximadamente lineales. Si pido 2 piezas de más, incurro en el doble de costes innecesarios que si pido 1 pieza de más. Por lo tanto, la solución óptima que produce OLS no se corresponderá con una solución óptima en la realidad. Entiendo que, en general, se puede minimizar cualquier métrica de error que tenga más sentido en la situación. Mi pregunta no es sobre si es posible o una buena idea utilizar MAE en un caso específico; es sobre la convención. ¿Por qué se minimiza el MSE en casi todos los casos sencillos en lugar del MAE cuando el coste real suele ser lineal?

Los casos que he visto para minimizar el MSE son los siguientes:

  1. El MSE es continuamente diferenciable
  2. La cuadratura penaliza más los errores grandes
  3. Tiene sentido porque suponemos que los errores se distribuyen normalmente

Sin embargo, si podemos realizar la regresión con errores absolutos fácilmente, y nos preocupa principalmente la predicción, no veo cómo esos puntos llevan a nadie a elegir los errores al cuadrado. Si son para elegir una convención, ¿no es mejor el error absoluto?

Este post ha recibido muchas respuestas excelentes que me han sido útiles. De esas respuestas, y de las respuestas en otros lugares que los mods creen que responden a mi pregunta, ninguna de ellas aborda exactamente la verdadera fuente de mi confusión, excepto la respuesta de @richard-hardy.

1voto

neonblaze Puntos 1

Supongamos que se lanza un dado (numerado del 1 al 6) y se quiere calcular su desviación media respecto al valor medio de 3,5. Dos tiradas diferirían en 0,5, dos en 1,5 y dos en 2,5, para una desviación media de 1,5. Si se toma la media de los cuadrados de los valores, se tendría una desviación de 0,25, otra de 2,25 y otra de 6,25, para una media de 2,916 (35/12).

Ahora supongamos que en lugar de tirar un dado, se tiran dos. La desviación media sería de 1,94 (35/18), y el cuadrado medio de la desviación sería de 5,833 (70/12).

Si en lugar de lanzar dos dados, se quisiera estimar la desviación esperada basándose en lo que fue con un solo dado, duplicando la desviación media lineal de un solo dado (es decir, 1,5) se obtendría un valor de 3, que es mucho mayor que la desviación media lineal real de 1,94. Por otro lado, si se duplica el cuadrado medio de la desviación cuando se utiliza un solo dado (2,916) se obtendría precisamente el cuadrado medio de la desviación cuando se utilizan dos dados.

En general, la raíz cuadrada de la media de los cuadrados es un número más útil que la propia media de los cuadrados, pero si se quiere calcular la raíz cuadrada de la media de un montón de cuadrados, es más fácil mantener los valores a sumar como cuadrados, que tomar las raíces cuadradas siempre que se informe de ellas y luego tener que elevarlas al cuadrado antes de poder sumarlas o promediarlas.

1voto

kent smith Puntos 1

En mi opinión, se reduce a que el error al cuadrado garantiza una solución única, más fácil de trabajar y, por tanto, mucho más intuitiva. Por sólo dos supuestos principales (y la linealidad del término de error), una función de pérdida cuadrática garantiza que el coeficiente estimado es el único minimizado. Las desviaciones mínimas absolutas no tienen esta propiedad. Siempre existe la posibilidad de un número infinito de soluciones. Suponiendo que $\exists\theta_o\in\Theta$ tal que $E(y|x)=m(x,\theta_o)$ y $E((m(x,\theta)-m(x,\theta_o)^2)>0$ para todos $\theta\neq\theta_o$ alors $\theta_o$ es el minimizador único para los mínimos cuadrados no lineales.

Prueba: Sea $y=m(x,\theta_o)+u$ y $E(u|x)=0$ . Entonces $$E_{\theta_o}((y-m(x,\theta))^2)=E_{\theta_o}((y-m(x,\theta_o)+m(x,\theta_0)-m(x,\theta))^2)$$

$$=E_{\theta_o}(u^2)+E_{\theta_o}((m(x,\theta_o)-m(x,\theta))^2)+2E_{\theta_o}(u(m(x,\theta_o)-m(x,\theta))).$$

Por la ley de las expectativas iteradas, el tercer término es cero. Por lo tanto,

$$E_{\theta_o}((y-m(x,\theta))^2)=u^2+E_{\theta_o}((m(x,\theta_o)-m(x,\theta))^2)$$ se minimiza de forma única en $\theta_o$ .

Otra buena propiedad es la ley de varianza total

$$Var(Y)=Var_X(E_Y(Y|X))+E_X(Var_Y(Y|X)),$$

que puede leerse como la varianza de la variable dependiente es la varianza del valor ajustado más la varianza del residuo.

En una nota más técnica, las fórmulas asintóticas son mucho más fáciles para una función de pérdida cuadrática. Es importante destacar que las fórmulas no dependen de la densidad de probabilidad del término de error. Desgraciadamente, esto no es cierto para las desviaciones mínimas absolutas. Por lo tanto, la mayoría de los profesionales acaban teniendo que asumir la independencia del término de error (la fórmula tiene la densidad condicional del término de error en 0 condicionada a $x$ que es imposible de estimar( $f_{u|x}(0)$ )) para estimar $f_u(0)$ .

Y el punto menos riguroso es que a la gente le resulta fácil entender qué es una media o un valor esperado, y la pérdida cuadrática resuelve la expectativa condicional. Las desviaciones mínimas absolutas resuelven la mediana, que es más difícil de interpretar. Otra razón por la que las regresiones cuantílicas no son muy populares.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X