El criterio de gradiente $$||\nabla f(x_{k})|| \leq \epsilon$$ es sensible a la escala, es decir, importa en qué unidades se miden los datos (por ejemplo, metro o kilómetro). En principio, tanto $x$ y su gradiente puede hacerse arbitrariamente grande o pequeño ajustando la unidad de medida. Por otro lado, el criterio de cambio de parámetro relativo $$|| x_{k} - x_{k-1} || \leq \epsilon$$ es invariante de la escala. Hay que tener en cuenta, sin embargo, que como $x_{k}$ es (probablemente) un vector, cada uno de sus elementos se trata igual aquí. Lo ideal sería ponderar cada parámetro con alguna información de curvatura, es decir, la matriz hessiana $\nabla^{2} f(x_{k})$ pero eso no suele ser factible desde el punto de vista computacional. Para un análisis más detallado de los criterios de parada, consulte las páginas 305-312 de Gill, Murray & Wright .