12 votos

¿Qué hace el cuadrado medio del error tan bueno?

Nuestra inferencia estadística material del curso se establece lo siguiente:

El principio de mean square error puede ser derivada desde el principio de máxima verosimilitud (después de establecer un modelo lineal donde los errores son normalmente distribuida)

Después de que el material de muestra aparentemente esta derivación largo de varias páginas de ecuaciones matemáticas con poca explicación.

Como yo lo entiendo, por "principio", que significan la razón por la que el MSE es particularmente una buena función de pérdida. En otra página que incluso explícitamente que en la práctica es el más importante de pérdida de función (dentro de un contexto, supongo).

Es posible explicar sin la fuerte matemáticas por qué MSE es particularmente una buena función de pérdida? Por ejemplo, la propiedad que hace que sea más importante que el error absoluto medio (MAE)? Intuitivamente me imagino que MAE será superior a la de MSE en la mayoría de las aplicaciones prácticas.

14voto

Jeff Bauer Puntos 236

Para ofrecer algunas alternativas de alimento para el pensamiento, aquí es un simple ejemplo de la vida real donde el MSE es no adecuado de la función de coste, debido a su naturaleza simétrica (tomado forma de Granger y Newbold "la Previsión Económica de Series de Tiempo" viejo, pero el venerable libro de 2º de ed. 1986) (cita p. 125):

"Un banco tiene la intención de comprar una computadora para controlar sus cuentas corrientes. Para determinar el tamaño del equipo a comprar, una predicción de el futuro de los negocios está hecho. Si la predicción es demasiado alto, el resultado será que el equipo va a ser subutilizadas y más barato de la máquina podría haber sido comprado. Si la predicción es demasiado baja, el resultado será se que parte de las cuentas tendrán que ser manejados por otros medios. No hay ninguna razón para suponer que el coste de los errores se simétrica en estas circunstancias."

Cuando "simplemente" se desee estimar algunos parámetros, que no tienen ningún argumento para decir que, por ejemplo, desviándose "a la derecha" es peor que desviarse "a la izquierda", y de manera simétrica las funciones de costo son bellas.

Pero cuando queremos utilizar estas estimaciones estadísticas para la toma de decisiones, en el mundo real de los costos de entrar en el cuadro, y que muy bien puede no ser simétrica.

Ver este post por un trabajado ejemplo con el general no necesariamente simétrica costos de desviación.

Obviamente la situación anterior es un contra-ejemplo, relacionados con todos los simétrica funciones de costo, no sólo MSE.

9voto

David Puntos 41

El cuadrado de la Pérdida es diferenciable, que es un muy buen hotel. En muchos casos, hay cerca de formulario de soluciones para el cuadrado de la pérdida de la comparación con otros de la pérdida de funciones. Específicamente, Para resolver el problema de mínimos cuadrados

$$ \text{minimizar}~~ \|Ax-b\|^2 $$

Podemos definir la derivada de a $0$

$$2A^{T}(Ax-b)=0 $$

y resolver el sistema lineal $$A^{T}Ax=A^Tb$$.

Además, hay muchos buenos algoritmos para resolver los problemas de mínimos cuadrados (por ejemplo, $A^{T}Ax=A^Tb$ puede ser resuelto mediante la descomposición QR, que usa la matriz de operaciones y tiene algunas ventajas en comparación con algunos de los algoritmos iterativos), que no para otros la pérdida de funciones.

Creo que también hay algunas razones históricas, menos plazas están bien estudiados durante cientos de años, y en la mayoría de los libros de texto. La gente lo usa sin segundos pensamientos sobre otros pérdida de las funciones.

8voto

andynormancx Puntos 234

Básicamente responde a tu pregunta, en que cita: "[es] derivado del principio de máxima verosimilitud (después de establecer un modelo lineal donde los errores están distribuidos normalmente)".

Es razonable asumir que sus errores son normalmente distribuidos? Si es así, entonces el cuadrado de la pérdida es la más justificable la pérdida de la función porque penaliza a las soluciones de acuerdo a sus log-verosimilitud. Sancionan de acuerdo a la log-verosimilitud es el único aditivo medida de la pérdida (hasta afín mapa), de modo que la pérdida de un conjunto de datos además de la pérdida de otro conjunto de datos es la pérdida de la combinación del conjunto de datos, también penalizado de acuerdo a la log-verosimilitud.

También me dio una similar respuesta a otra pregunta (¿por Qué la plaza de la diferencia, en lugar de tomar el valor absoluto de la desviación estándar?).

6voto

Dipstick Puntos 4869

Esto está muy bien descrito por Christian P. Robert en El Bayesiano Elección libro (pp 77-78):

Propuesto por Legendre (1805) y Gauss (1810), esta pérdida es, sin duda, el más común de los criterio de evaluación. La fundación de su validez en el la ambigüedad de la noción de error estadístico de configuración (es decir, el error de medición frente a la variación aleatoria), que también dio lugar a muchos críticas, comúnmente lidiando con el hecho de que el error cuadrático de la pérdida de

$$ L(\theta, d) = (\theta - d)^2 \tag{2.5.1} $$

penaliza a las grandes desviaciones demasiado. Sin embargo, la pérdida de las funciones convexas como (2.5.1) tiene la incomparable ventaja de evitar la paradoja de riesgo de los amantes , y para excluir aleatorizado estimadores. Otra costumbre justificación de la pérdida cuadrática es que proporciona una Taylor la expansión de aproximación a la más compleja simétrica pérdidas (véase el Ejercicio 4.14 para un contraejemplo). En su 1810 papel, Gauss ya se reconoce la arbitrariedad de la pérdida cuadrática y estaba defendiendo es por motivos de simplicidad. (...) De hecho, los estimadores de Bayes asociados con la pérdida cuadrática son la posterior significa. (...)

Con lo que se evita el riesgo de los amantes de la paradoja, ya que el riesgo de los amantes de la "prefieren un azar de ganancia a la expectativa de esta ganancia" (pág. 59) y el cuadrado de la pérdida se asienta en la media. Está conectado a la noción de error y la distribución normal, y es la optimización de usar. No obstante, es de alguna manera arbitraria y sin duda es que no siempre preferible, o en última instancia, la mejor.

3voto

Jeff Bauer Puntos 236

Ahora el argumento en favor de la MSE.

Considere la posibilidad de una Pérdida o función de Coste debido a la desviación, $L=L(d)$. Queremos que tienen ciertas propiedades razonables para hacer el trabajo que se pretende hacer.

Una de esas propiedades es $L(0) = 0$.
Otra es que el $L(0)$ es un mínimo global. Pero entonces, y si es diferenciable en a $d=0$, tendremos $\partial L(0)/\partial d =0$, pero también se $\partial^2 L(0)/\partial d^2 >0$.
Una tercera condición es la que está en todas partes en aumento en $d$.

Considere ahora su 2º orden expansión de Taylor alrededor de cero (McLaurin):

$$L(d) \approx L(0) + \frac {\partial L(0)}{\partial d} \cdot d + \frac 12 \frac {\partial^2 L(0)}{\partial d^2}\cdot d^2 = \frac 12 \frac {\partial^2 L(0)}{\partial d^2}d^2$$

...ya que los dos primeros términos son cero dadas las propiedades que queremos que la función tiene. También, el último término es positivo, y depende del cuadrado de la desviación, por lo que es simétrica para negativos y positivos de las desviaciones.

Llegamos a la conclusión de: Si como nuestra función de Pérdida podemos utilizar una función diferenciable en a $d=0$, entonces la desviación de costes (especialmente para las pequeñas desviaciones) puede ser aceptablemente modelada como una función lineal de la desviación cuadrática.

Esta parece una muy general y poderoso argumento en favor de las PYME en todos los casos, pero hay dos sutil y puntos críticos que debilitan:

1) la diferenciabilidad en $d=0$ es exactamente lo que se pierde en la mayoría de los casos donde el mundo real de la situación indica que los costes son asimétricas negativas y positivas desviaciones.

2) Para pasar de "error cuadrado" a la "espera del error cuadrado" debemos considerar la $L(d)$ como una variable aleatoria. Pero entonces, si uno va a utilizar $E[L(d)]$ o de alguna otra "medida de la concentración", se vuelve discutible y abierto a los argumentos, teórica y aplicada.

Aquí es donde la conveniente propiedades del valor esperado entran en juego, siendo un operador lineal en la teoría y se estima que por ejemplo los medios en los trabajos aplicados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X