Hace poco me encontré con el siguiente documento: " Métodos estocásticos para $\ell_1$ Minimización de pérdidas regularizada ", por Shai Shalev-Shwartz y Ambuj Tewari, ICML 2009.
En el trabajo, los autores proponen una modificación del algoritmo de descenso de coordenadas para el LASSO en el que las coordenadas (el $\beta$ s) se actualizan en un orden aleatorio. Esta modificación parece tener un mejor rendimiento en tiempo de ejecución que el descenso de coordenadas determinista.
¿Puedes ofrecer alguna intuición de por qué esa modificación haría el algoritmo más rápido en la práctica?
0 votos
Supongo que podría estar relacionado con los problemas que tiene el descenso más pronunciado y que el método del gradiente conjugado corrige.
0 votos
Me pregunto por qué el problema de optimización (5) del documento es equivalente al problema original. ¿Cómo se puede comprobar?