35 votos

¿Por qué obtener la suma de cuadrados en lugar de la suma de valores absolutos?

Estoy estudiando por mi cuenta el aprendizaje automático y me estoy metiendo en los fundamentos de los modelos de regresión lineal. Por lo que entiendo hasta ahora, un buen modelo de regresión minimiza la suma de las diferencias al cuadrado entre los valores predichos $h(x)$ y los valores reales $y$ .

Algo como lo siguiente:

$$\sum_{i=1}^m (h(x_i)-y_i)^2$$

¿Por qué cuadramos las diferencias? Por un lado, parece que elevarlas al cuadrado nos permitirá obtener un número positivo cuando el valor esperado sea menor que el valor real. Pero, ¿por qué no se puede tener en cuenta esto simplemente tomando la suma de los valores absolutos?

Así:

$$\sum_{i=1}^m |h(x_i)-y_i|$$

30voto

Bitwise Puntos 715

En realidad, hay algunas grandes razones que no tienen nada que ver con que sea fácil de calcular. La primera forma se llama mínimos cuadrados y en un entorno probabilístico hay varias buenas justificaciones teóricas para utilizarlo. Por ejemplo, si se supone que se está realizando esta regresión sobre variables con un error distribuido normalmente (que es una suposición razonable en muchos casos), entonces la forma de mínimos cuadrados es la estimador de máxima verosimilitud . Hay otras propiedades importantes.

Puede leer más aquí .

11voto

Claude Leibovici Puntos 54392

Si $h(x)$ es lineal con respecto a los parámetros, las derivadas de la suma de cuadrados conducen a soluciones simples, explícitas y directas (inmediatas si se utilizan cálculos matriciales).

Este no es el caso de la segunda función objetivo en su puesto. El problema se vuelve no lineal con respecto a los parámetros y es mucho más difícil de resolver. Pero, es factible (yo generaría las conjeturas de partida de la primera función objetivo.

A modo de ilustración, he generado un $10\times 10$ tabla para $$y=a+b\log(x_1)+c\sqrt{x_2}$$ ( $x_1=1,2,\cdots,10$ ), ( $x_2=1,2,\cdots,10$ ) y cambiamos los valores de $y$ utilizando un error relativo aleatorio entre $-5$ y $5$ %. Los valores utilizados fueron $a=12.34$ , $b=4.56$ y $c=7.89$ .

Utilizando la primera función objetivo, la solución es inmediata y conduce a $a=12.180$ , $b=4.738$ , $c=7.956$ .

Partiendo de estos valores como conjeturas iniciales para la segunda función objetivo (que, de nuevo, hace que el problema sea no lineal), se llevó al solucionador $\Large 20$ iteraciones para obtener $a=11.832$ , $b=4.968$ , $c=8.046$ . Y todas estas dolorosas iteraciones redujeron la función objetivo de $95.60$ hasta $94.07$ ¡!

Hay muchas otras funciones objetivo posibles utilizadas en la regresión, pero la tradicional suma de errores al cuadrado es la única que conduce a soluciones explícitas.

Añadido más tarde

Un pequeño problema que podría (debería, si se me permite) ejercitar a mano: considere cuatro puntos de datos $(1,4)$ , $(2,11)$ , $(3,14)$ , $(4,21)$ y su modelo es simplemente $y=a x$ y su búsqueda del mejor valor de $a$ que minimiza $$\Phi_1(a)=\sum_{i=1}^4 (y_i-a x_i)^2$$ o $$\Phi_2(a)=\sum_{i=1}^4 |y_i-a x_i|$$ Representar los valores de $\Phi_1(a)$ y $\Phi_2(a)$ en función de $a$ para $4 \leq a \leq 6$ . Para $\Phi_1(a)$ tendrá una bonita parábola (cuyo mínimo es fácil de encontrar) pero para $\Phi_2(a)$ el gráfico muestra una serie de segmentos que luego conducen a derivadas discontinuas en las interseccionesi; esto hace que el problema sea mucho más difícil de resolver.

6voto

EthanAlvaree Puntos 1075

Estudio la regresión, y yo mismo me preguntaba esto mismo.

Ahora he llegado a la conclusión de que es por la geometría y el álgebra lineal que hay detrás de la regresión. Supongamos que recogemos datos sobre $n$ observaciones y realizar una regresión. Cuando minimizamos la suma de los residuos al cuadrado, la forma en que lo hacemos (utilizando mínimos suares ordinarios) es mediante matrices de proyección. Proyectamos un vector de variables explicativas (las variables "y") en un hiperplano de las variables explicadas (los "regresores" o las variables "x"). Mediante el uso de proyecciones, podemos encontrar el vector "más cercano" en el hiperplano (llamado $\mathbf{x}\hat{\mathbf{\beta}}$ haciendo que el vector "error" de los residuos $\hat{\mathbf{u}}$ lo más pequeño posible.

Esta es la clave: cuando elegimos $\hat{\mathbf{\beta}}$ para que el vector de residuos sea lo más "pequeño" posible, esto significa que estamos minimizando su Longitud euclidiana : \begin{align} min |\mathbf{y}-\mathbf{x\beta}| &= min |\hat{\mathbf{u}}| \\ &= min \sqrt{\hat{\mathbf{u}}^\top\hat{\mathbf{u}}} \\ &=min \sqrt{\hat{u}_+\hat{u}_2+\cdots+\hat{u}_n} \end{align} Y aquí es donde entra la suma de SQUARES. En realidad es un resultado geométrico.

5voto

Smiley Sam Puntos 1587

Incluso cuando no estoy haciendo nada que tenga que ver con la diferenciación, entonces me siguen gustando las plazas. De hecho, considere el $l_p$ norma, donde se suman los $p$ -poderes, luego subir al poder $1/p$ : $$ || x ||_{l_p}^p = \sum_i |x|_i^p . $$ Puedes utilizarlo para "penalizar" los errores de forma más agresiva. Por ejemplo, cuando se eleva al cuadrado, penaliza más que si se toma el valor absoluto: si se duplica el error, se cuadruplica al cuadrado. Entonces puedes dejar que $p \rightarrow \infty $ y entonces esto da el $\sup$ norma: $$ || x ||_{l_\infty} = \sup_i x_i . $$ Alternativamente, si la duplicación del error en su situación no importa realmente que mucho, se puede elegir un tamaño más pequeño $p$ como por ejemplo $p = 1/2$ .

¡Espero que esto ayude! :)

4voto

Reza Puntos 241

Una de las razones es el resto de cálculos que hay que hacer en la función de costes.

Por ejemplo, para minimizar la función de coste (por ejemplo, en el descenso de gradiente), es necesario realizar derivaciones. Tomar derivaciones de un valor al cuadrado es mucho más fácil que un valor absoluto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X