7 votos

En la optimización de GD, si el gradiente de la función de error es con respecto a los pesos, ¿no se elimina el valor objetivo ya que es una constante solitaria?

Supongamos que tenemos la diferencia absoluta como una función de error:

$\mathit{loss}(w) = |m_x(w) - t|$

donde $m_x$ es simplemente algún modelo con la entrada $x$ y la configuración de peso $w$, y $t$ es el valor objetivo.

En la optimización por descenso de gradiente, la idea inicial es tomar el gradiente de la función de pérdida y actualizar $w$ de la siguiente manera:

$w = w - \alpha\cdot\nabla \mathit{loss}(w)$

donde $\alpha$ es la tasa de aprendizaje. ¿No sería el gradiente de la función de pérdida en nuestro caso:

$\nabla \mathit{loss}(w) = \nabla m_x(w)$

donde se omite $t$ porque es una constante? Siento que me estoy perdiendo un punto crucial importante aquí.

0 votos

Esta pregunta realmente no tiene nada que ver con la retropropagación.

0 votos

@leftaroundabout siéntete libre de editarlo.

14voto

Keith Puntos 11

Si consideramos la diferencia absoluta como una norma, es decir:

$loss(w) = |m_x(w) - t|$

entonces $\nabla loss(w)$ está lejos de ser equivalente a simplemente $\nabla m_x(w)$.

Según la definición de la derivada para un valor absoluto (y usando la regla de la cadena), obtenemos en realidad:

$\nabla loss(w) = \frac{m_x(w) - t}{|m_x(w) - t|}. m_x'(w)$

Esto es similar a la respuesta de Aksakal, pero quería mostrar exactamente por qué obtenemos $\pm m_x'(w)$

11voto

Aksakal Puntos 11351

No. Una norma adecuada no lo permitirá.

Incluso la función de valor absoluto más simple como pérdida dependerá de $t$: $|m(w)-t|’=\pm m’(w)$, aquí el signo depende de $t$.

TL;DR; Generalmente, tu función de pérdida será $L(w|t,X)$, por lo que la primera derivada es $\partial L(w|t,X)/\partial w$, y no hay razón para que $t$ desaparezca de la expresión a menos que construyas $L$ con este propósito únicamente, por ejemplo haces que $L$ sea estrictamente lineal en $w$. Sin embargo, $L$ no puede ser cualquier función en un problema que impliques, es decir, donde tengas un objetivo que alcanzar.

Claramente, la pérdida no puede ser negativa, porque lo mejor que podrías hacer en este tipo de problema es alcanzar un objetivo y luego no hay pérdida, es decir, $L(w^*)=0$. Esto significa que no importa qué función de pérdida elijas, tiene que ser no lineal alrededor del óptimo $w^*$. El ejemplo de la norma de valor absoluto anterior te muestra que incluso una función de pérdida que es totalmente lineal en $w$ en todas partes excepto en un punto seguirá dependiendo de $t$.

0 votos

A menos que esté equivocado, he llegado a entender que la derivada del valor absoluto (no de ninguna otra norma), no es lo que debería ser en la pregunta original. De hecho, depende de $t$.

5 votos

Cualquier norma dependerá de $t$. Piensa lógicamente, es una especie de distancia desde un objetivo, ¿cómo podría el derivado no depender de dónde está el objetivo?

1 votos

Esta es exactamente la pregunta que me hice. ¡Supongo que interpreté mal la derivada de un valor absoluto!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X