12 votos

Aproximación de segundo orden de la función de pérdida (Deep learning book, 7.33)

En Goodfellow (2016) libro sobre el aprendizaje profundo, él habló acerca de la equivalencia de los principios de parar a L2 regularización (https://www.deeplearningbook.org/contents/regularization.html página 247).

Cuadrático de aproximación de la función de costo $j$ está dada por:

$$\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$$

donde $H$ es la matriz Hessiana (Eq. 7.33). Es este el medio plazo? Expansión de Taylor debe ser: $$f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2$$

15voto

Jan Kukacka Puntos 1027

Hablan de los pesos al óptimo:

Podemos modelar la función de costo $J$ con una aproximación cuadrática en la vecindad del valor empíricamente óptimo de los pesos $w^∗$

En ese momento, la primera derivada es cero, por lo que el término medio queda excluido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X