Diferencia entre algoritmo de primer y segundo orden:
Cualquier algoritmo que requiera al menos una primera derivada/gradiente es un algoritmo de primer orden. En el caso de un problema de optimización de suma finita, puede utilizar sólo el gradiente de una sola muestra, pero esto sigue siendo de primer orden porque se necesita al menos un gradiente.
Un algoritmo de segundo orden es cualquier algoritmo que utilice cualquier segunda derivada, en el caso escalar. Para elaborar, el paso de Newton requiere el uso del Hessian que tiene derivadas de segundo orden es decir $H_{i,j} = \partial_i \partial_j f(x)$ .
En general, un algoritmo puede clasificarse como $n^{th}$ optimización de orden si utiliza un tensor de rango $n$ .
Distinción importante:
Cuando un algoritmo utiliza un aproximado versión de la información de segundo orden (hessiana) para la optimización, se puede o no puede sea un algoritmo de segundo orden. Hago hincapié en esto porque, por ejemplo, se puede aproximar el hessiano por el producto exterior del gradiente $H = \nabla f(x) \nabla f(x)^T$ . En este caso sólo utilizando información de primer orden, por lo que se consideraría un algoritmo de primer orden. Por otro lado, si se aproxima el hessiano calculando sólo los elementos diagonales $\partial_i \partial_i f(x)$ se trataría de un algoritmo de segundo orden.
En pedir de un algoritmo puede considerarse el orden de error resultante de la aproximación de la derivada. Recordemos la definición de derivada: $$\partial_i f(x) \approx \frac{f(x + \epsilon \Delta x_i) - f(x)}{\epsilon}$$
y la segunda derivada: $$\partial_{ij} f(x) \approx \frac{\partial_j f(x + \epsilon \Delta x_i) - \partial_j f(x)}{\epsilon}$$
donde $x_i$ es igual a $x$ sólo en el $i^{th}$ coordinar y $0$ en otro sitio. Por lo tanto, si utiliza un $\epsilon$ aproximación para cada cálculo de la derivada, obtendrá una $\epsilon^2$ error inherente a su algoritmo de optimización.
Dado que está incluido en tu pregunta, me gustaría añadir que los algoritmos de primer orden no convergen necesariamente de forma lineal. El Descenso Gradiente Estocástico (SGD) converge sublinealmente y muchos algoritmos de segundo orden no convergen cuadráticamente.