Coordinar las actualizaciones del descenso un parámetro a la vez, mientras que el descenso de gradiente intenta actualizar todos los parámetros a la vez.
Es difícil especificar exactamente cuando un algoritmo lo hará mejor que el otro. Por ejemplo, me sorprendió mucho saber que el descenso por coordenadas era lo más avanzado para LASSO. Y no fui el único; véase diapositiva 17 .
Dicho esto, hay algunas características que pueden hacer que un problema sea más enmendable para el descenso por coordenadas:
(1) Actualizaciones condicionales rápidas. Si, por alguna razón, el problema permite optimizar individualmente los parámetros muy rápidamente, el descenso por coordenadas puede hacer uso de esto. Por ejemplo, uno puede ser capaz de actualizar ciertos parámetros utilizando sólo un subconjunto de los datos, reduciendo en gran medida el coste computacional de estas actualizaciones. Otro caso es que exista una solución de forma cerrada para un parámetro individual, condicionada a los valores de todos los demás parámetros.
(2) Modos relativamente independientes para los parámetros. Si el valor óptimo de un parámetro es completamente independiente de los valores de los otros parámetros, entonces una ronda de descenso de coordenadas conducirá a la solución (suponiendo que cada actualización de coordenadas encuentra el modo actual). Por otro lado, si el modo de un parámetro determinado depende en gran medida de los valores de otros parámetros, es muy probable que el descenso por coordenadas avance lentamente, con actualizaciones muy pequeñas en cada ronda.
Desgraciadamente, para la mayoría de los problemas, (2) no se cumple, por lo que es raro que el descenso por coordenadas salga bien parado en comparación con los algoritmos alternativos. Creo que la razón por la que funciona bien para LASSO es que hay un montón de trucos que se pueden utilizar para promulgar la condición (1).
Para el descenso del gradiente, este algoritmo funcionará bien si la segunda derivada es relativamente estable, una buena $\alpha$ se selecciona y la fuera de la diagonal del hessiano es relativamente pequeña en comparación con las entradas diagonales. Estas condiciones también son poco frecuentes, por lo que su rendimiento suele ser peor que el de algoritmos como L-BFGS.