Es más fácil verlo desde un punto de vista de aproximación, ampliemos y(x) alrededor de algún punto x0 usando términos de Taylor, entonces:
y(x)=y(x0)+∇yT(x−x0)+(x−x0)TH(x−x0)+hot(x)
donde ∇y es el gradiente y H es la matriz hessiana (derivada de segundo orden) de y(x) ambos evaluados en x0 y hot(x) son los términos de orden superior.
Ahora bien, si se toman los dos primeros términos como una aproximación de y :
y(x)≈y(x0)+∇yT(x−x0)+(x−x0)TH(x−x0)
⇒y(x)−y(x0)≈∇yT(x−x0)+(x−x0)TH(x−x0)
deje x→x0 entonces sí: dy≈∇yTdx+dxTHdx en el límite dxTHdx llega a cero mucho más rápido que ∇yTdx así que es verdad que..:
dy=∇yTdx
Utilizo una notación ligeramente diferente, pero espero que la entiendas.