9 votos

¿Por qué trabajar con cuadrados de error en el análisis de regresión?

En el análisis de regresión se encuentra una línea que se ajusta mejor al minimizar la suma de los errores al cuadrado.

Pero, ¿por qué al cuadrado ¿errores? ¿Por qué no usar el absoluto valor del error?

Me parece que con los errores de cuadratura, los más externos ganan más peso. ¿Por qué se justifica eso? Y si está justificado dar a los externos más peso, entonces ¿por qué darles exactamente este peso? ¿Por qué no tomar, por ejemplo, la menor suma de errores exponecionales?


Editar: No me interesa tanto el hecho de que pueda ser más fácil de calcular. Más bien la pregunta es: ¿la cuadratura de los errores resulta en una mejor línea de ajuste en comparación con el uso del valor absoluto del error?

Además, estoy buscando una respuesta en términos simples que pueda mejorar mi comprensión intuitiva.

1 votos

El error al cuadrado es como la varianza, que es más fácil de trabajar en la mayoría de los casos que el error absoluto, que es como la desviación estándar. Esta última incluye una raíz cuadrada.

1 votos

Algunas de las preguntas relacionadas en stats.SE: relevante Q1 ; relevante Q2 ; relevante Q3 ... intente algunas búsquedas para obtener más

1 votos

También hay que tener en cuenta el teorema de Gauss-Markov: es.wikipedia.org/wiki/Gauss%E2%80%93Teorema de Markov

8voto

Matt Dawdy Puntos 5479

Desde un punto de vista bayesiano, esto equivale a suponer que sus datos son generados por una línea más ruido gaussiano, y encontrar la línea de máxima probabilidad basada en esa suposición. Utilizar los valores absolutos significa suponer que el ruido tiene un pdf proporcional a $e^{-|x|}$ que es sustancialmente menos natural que suponer un ruido gaussiano (por ejemplo, el ruido gaussiano se sale del teorema del límite central).

El uso de los errores al cuadrado también hace que la regresión sea extremadamente fácil de calcular, lo cual es probablemente un factor práctico importante. La mayoría de las otras funciones del error darían lugar a algo mucho más molesto de calcular.

0 votos

No entiendo la primera parte de su respuesta, ¿podría ampliarla?

2 votos

¿Por qué "desde un punto de vista bayesiano"? Las mismas afirmaciones son válidas en un enfoque no bayesiano.

5voto

craig232 Puntos 21

Muchas respuestas perspicaces aquí.

Me gustaría compartir algo que encontré hace un tiempo y que podría ayudarte con tu editado pregunta:

Edición: No me interesa tanto el hecho de que pueda ser más fácil de calcular. Más bien la pregunta es: ¿el cuadrado de los errores da lugar a una línea de mejor ajuste en una línea de mejor ajuste en comparación con el uso del valor absoluto de la error?

Además, estoy buscando una respuesta en términos sencillos que pueda mejorar mi comprensión intuitiva.

No, la cuadratura de los errores no siempre da lugar a una línea de mejor ajuste.

A continuación se muestra una figura que compara las líneas de mejor ajuste producidas por la regresión L-1 y la regresión por mínimos cuadrados en un conjunto de datos con valores atípicos :

Haga clic aquí para ver la cifra

Como has señalado, los valores atípicos afectan negativamente a la regresión por mínimos cuadrados. He aquí un caso en el que la regresión por mínimos cuadrados da una línea de mejor ajuste que "se desplaza" hacia los valores atípicos.

Todo el mérito es de: matlabdatamining.blogspot.sg/2007/10/l-1-linear-regression.html

3voto

M. Cornwell Puntos 31

Se elevan al cuadrado los términos de error debido al teorema de Pitágoras x^2 + y^2 = z^2.

Consideremos sólo el caso bidimensional.

La x y la y corresponden a términos de error en cada dimensión ortogonal. Pero la hipotenusa z es la distancia que realmente se quiere minimizar.

Ahora, al minimizar la suma de los cuadrados de x e y, también se minimizará la raíz cuadrada de la suma de los cuadrados. Por lo tanto, no es necesario tomar la raíz cuadrada final.

Con un poco de reflexión verás que esto funciona a medida que añades más términos de error x,y a la mezcla. Minimizando

x1^2 + y1^2 + ... + xN^2 + yN^2

tiene el efecto de minimizar también la sobre suma de las distancias (todos esos pequeños hipotenusas)

sqrt(x1^2 + y1^2) + ... + sqrt(xN^2 + yN^2) = z1 + ... + zN

pero es mucho más sencillo de calcular.

¿Tiene sentido?

Bien, ¿qué pasaría si se toman valores absolutos y se minimiza

|x1| + |y1| + ... + |xN| + |yN| ?

En lugar de minimizar la suma de las distancias, tendrías que sesgar el ajuste resultante hacia una pendiente de 1 o -1 y alejarte de las pendientes de las líneas cercanas a 0 o al infinito. Por supuesto que se puede hacer eso, pero el ajuste resultante se inclinará hacia una línea con una pendiente de más o menos 1 y se alejará de la solución que minimiza esas distancias pitagóricas.

1 votos

En realidad no estoy de acuerdo, porque típicamente en la regresión consideramos sólo las diferencias verticales, no la posibilidad de que también haya diferencias horizontales. Así que no hay realmente una geometría "física" en este caso. Estamos proyectando nuestra geometría física en un espacio no físico.

0 votos

¡Maldita sea! Ian tiene razón. "La regresión lineal por mínimos cuadrados se basa en desplazamientos verticales, no en desplazamientos perpendiculares. Así que mi argumento geométrico no se aplica a este problema :-(

2voto

kixx Puntos 2452

Los errores al cuadrado producen fórmulas más sencillas. Cuando se implementa en ambos casos, se acaba con un montón de bucles for y declaraciones if, por lo que la diferencia puede no ser tan clara. Sin embargo, si se pretende tratar con fórmulas, el error al cuadrado es más fácil.

La expresión que implica los errores al cuadrado es diferenciable en todas partes y la derivada es "analítica": Expresable por un fórmula. La expresión del valor absoluto es diferenciable con la excepción de los valores en los que el valor absoluto cambia de signo. En estos puntos la derivada de la izquierda y de la derecha son diferentes y por tanto no hay derivada en estos puntos. Excluyendo estos puntos hay una derivada pero no hay una representación (buena - analítica) mediante una fórmula.

Para hacerse una idea de este caso, mire esta pregunta .

2voto

littleO Puntos 12894

Minimizar la $\ell_2$ -La norma del residuo no siempre es lo mejor, por la razón que has dicho: pone demasiado peso en los valores atípicos. Por esa razón, la gente suele minimizar el $\ell_1$ -norma del residuo. El $\ell_1$ -La norma es mucho más robusta frente a los valores atípicos. (La $\ell_1$ -norm no considera que sea un desastre si unos pocos componentes del residuo son grandes).

También pueden ser útiles otras funciones de penalización, como la $\ell_\infty$ -o la pena de Huber. Esto se discute con más detalle, por ejemplo, en el capítulo 6 del libro Convex Optimization de Boyd y Vandenberghe (que es gratis en línea ). Véase el ejemplo 6.2 ("regresión robusta") y la figura 6.5 que lo acompaña, por ejemplo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X