55 votos

Es la minimización del error cuadrado equivalente a minimizar el error absoluto? ¿Por qué del error cuadrado es más popular que el último?

Cuando realizamos una regresión lineal $y=ax+b$ para adaptarse a un montón de puntos de datos $(x_1,y_1),(x_2,y_2),...,(x_n,y_n)$, el enfoque clásico de la minimiza el error cuadrático. Durante mucho tiempo he sido sorprendido por una pregunta que se minimiza el error cuadrático de producir el mismo resultado que minimiza el error absoluto? Si no, ¿por qué minimizar el error cuadrático es mejor? ¿Hay alguna otra razón que "el objetivo de la función es diferenciable"?

Error cuadrado es también ampliamente utilizado para evaluar el desempeño del modelo, pero el error absoluto es menos popular. ¿Por qué del error cuadrado es más frecuente que el error absoluto? Si la toma de derivados no está involucrado, calcular el error absoluto es tan fácil como el cálculo del error cuadrado, entonces ¿por qué squared error es tan frecuente? ¿Hay alguna ventaja única que puede explicar su prevalencia?

Gracias.

70voto

sunnie Puntos 18

Minimizar los cuadrados de los errores (MSE) es definitivamente no es la misma como la minimización absoluta desviaciones (MAD) de errores. MSE ofrece la media de respuesta de $y$ acondicionado en $x$, mientras que el LOCO proporciona la mediana de la respuesta de $y$ acondicionado en $x$.

Históricamente, Laplace originalmente considerado el máximo observado error como una medida de la corrección de un modelo. Muy pronto se trasladó a considerar LOCO en su lugar. Debido a su incapacidad para exacta resolver ambas situaciones, pronto se considera el diferencial de MSE. Sí mismo y de Gauss (aparentemente simultáneamente) derivados de la normal de ecuaciones, de forma cerrada, la solución para este problema. Hoy en día, la solución de la MAD es relativamente fácil por medio de la programación lineal. Como es bien sabido, sin embargo, la programación lineal no tiene una forma cerrada de la solución.

A partir de una optimización de la perspectiva, ambas corresponden a las funciones convexas. Sin embargo, el MSE es diferenciable, por lo tanto, lo que permite gradiente de métodos basados en la más eficiente de su no-diferenciable contraparte. LOCO no es diferenciable en $x=0$.

Un mayor razón teórica es que, en un bayesiano de configuración, al asumir el uniforme de los priores de los parámetros del modelo, MSE rendimientos normales distribuidas errores, que ha sido tomado como una prueba de la exactitud del método. Como teóricos de la distribución normal, porque a su juicio es un dato empírico, mientras que experimentals gusta porque creen que es un resultado teórico.

Una última razón de por qué MSE puede haber tenido la gran aceptación que tiene es que está basado en la distancia euclidiana (en realidad es una solución de la proyección problema en euclidiana espacio de banach), que es extremadamente intuitiva, dado nuestro geométrica de la realidad.

36voto

Jean-Paul Puntos 365

Como una explicación alternativa, considere la siguiente intuición:

Al minimizar un error, se debe decidir la forma de penalizar a estos errores. De hecho, el enfoque más sencillo para penalizar los errores sería el uso de un linearly proportional función de penalización. Con esta función, cada desviación de la media se da una proporción de error correspondiente. Dos veces tan alejadas de la media, por tanto, permitiría el doble de la pena.

El enfoque más común es considerar un squared proportional relación entre las desviaciones de la media y la pena correspondiente. Esto se asegurará de que la mayor está lejos de la media, la proporción, más usted será penalizado. El uso de esta función de penalización, los valores atípicos (lejos de la media) se considera proporcionalmente más informativas que las observaciones cerca de la media.

Para dar una visualización de esto, usted puede simplemente parcela de las funciones de penalización:

Comparison of MAD and MSE penalty functions

Ahora, especialmente cuando se considera la estimación de regresiones (por ejemplo, OLS), diferentes funciones de penalización producirá resultados diferentes. El uso de la linearly proportional función de penalización, la regresión a asignar menos peso a los valores atípicos que cuando se utiliza la squared proportional función de penalización. La Mediana de la Desviación Absoluta (MAD) por lo tanto es conocido por ser un más robusto estimador. En general, es por lo tanto el caso de que un estimador robusto se adapta a la mayoría de los puntos de datos bien pero 'ignora' valores atípicos. Un mínimo de cuadrados, en comparación, se tira más hacia los valores extremos. Aquí está una visualización para la comparación:

Comparison of OLS vs a robust estimator

Ahora aunque OLS es casi la norma, las diferentes funciones de penalización son la mayoría, sin duda, en uso así. Como un ejemplo, usted puede tener una mirada en Matlab del robustfit función que le permite elegir una pena distinta (también llamado 'peso') en función de su regresión. Las funciones de penalización incluyen andrews, bisquare, cauchy, justo, huber, logística, operación, talwar y portentosa. Sus correspondientes expresiones se pueden encontrar en la página web también.

Espero que le ayuda a conseguir un poco más de intuición para las funciones de penalización :)

4voto

kristjan Puntos 111

En teoría, usted podría usar cualquier tipo de pérdida de función. El absoluto y el cuadrado de la pérdida de las funciones acaba de pasar a ser la más popular y la más intuitiva de la pérdida de funciones. De acuerdo a esta wikipedia entrada,

Un ejemplo común involucra la estimación de "ubicación". Bajo típico de los supuestos estadísticos, la media o promedio es la estadística para la estimación de la ubicación que minimice la pérdida esperada que se experimenta bajo el cuadrado del error de la pérdida de la función, mientras que la mediana es el estimador que minimiza la pérdida esperada experimentado bajo la absoluta diferencia de la pérdida de la función. Todavía los distintos estimadores sería óptimo en otros, los menos comunes de las circunstancias.

Como también se explica en la entrada de la wikipedia, la elección de la pérdida de las funciones depende de cómo el valor de las desviaciones de su objetivo. Si todas las desviaciones son igual de malo para ti, no importa su signo, entonces usted podría utilizar la pérdida absoluta de la función. Si las desviaciones a ser peor que cuanto más lejos esté de la óptima y no se preocupan acerca de si la desviación es positiva o negativa, entonces el cuadrado de la función de pérdida es su opción más sencilla. Pero si ninguna de las definiciones anteriores de pérdida de adaptarse a su problema a la mano, porque por ejemplo, las pequeñas desviaciones son peor que las grandes desviaciones, entonces usted puede elegir una diferente función de pérdida y tratar de resolver el minimizar el problema. Sin embargo, las propiedades estadísticas de la solución podría ser difícil de evaluar.

3voto

Jimmy J Puntos 1124

Como otra respuesta ha explicado, minimizando el error cuadrático no es lo mismo que minimizar el error absoluto.

La razón de minimizar el error cuadrático es preferido es porque evita errores grandes mejor.

Dicen que su empolyer el departamento de nóminas accidentalmente paga cada uno de un total de diez empleados \$50 menos de lo requerido. Eso es un error absoluto de \$500. También es un error absoluto de \$500 si el departamento paga sólo un empleado \$500 menos. Pero los términos de error cuadrático, es de 25000 frente a 250000.

No siempre es mejor usar error cuadrado. Si usted tiene un conjunto de datos con un valor atípico extremo debido a una adquisición de datos de error, minimizando el error cuadrático se tire el ajuste hacia el extremo de las demás mucho más de minimizar el error absoluto. Que siendo dicho, es -por lo general - mejor uso del error cuadrado.

-1voto

Louis Jacomet Puntos 650

Respuestas cortas

  1. nope
  2. la media tiene más interesantes propiedades estadísticas de la mediana

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X