Supongamos que tenemos la diferencia absoluta como una función de error:
$\mathit{loss}(w) = |m_x(w) - t|$
donde $m_x$ es simplemente algún modelo con la entrada $x$ y la configuración de peso $w$, y $t$ es el valor objetivo.
En la optimización por descenso de gradiente, la idea inicial es tomar el gradiente de la función de pérdida y actualizar $w$ de la siguiente manera:
$w = w - \alpha\cdot\nabla \mathit{loss}(w)$
donde $\alpha$ es la tasa de aprendizaje. ¿No sería el gradiente de la función de pérdida en nuestro caso:
$\nabla \mathit{loss}(w) = \nabla m_x(w)$
donde se omite $t$ porque es una constante? Siento que me estoy perdiendo un punto crucial importante aquí.
0 votos
Esta pregunta realmente no tiene nada que ver con la retropropagación.
0 votos
@leftaroundabout siéntete libre de editarlo.