Estoy tratando de desarrollar una intuición de por qué es más cara que L2 regresión regresión de L1. Puede alguien me punto a algún material que explica por qué éste es el caso
Respuesta
¿Demasiados anuncios?L1 regularización de los resultados en un sancionar la pérdida de la función con discontinuidad en los derivados, mientras que L2 regularización no introducir discontinuidades. Esto significa que, cuando se realizan gradiente de la pendiente de la optimización de la penalizado pérdida que existe la necesidad de comprobaciones para ver si va un paso más de una de estas discontinuidades para asegurarse de que es manejado correctamente (es de esperar que la solución se encuentran en una de estas discontinuidades como esto es lo que da lugar a la dispersión). Con L2 de regularización no hay tal (adicional) discontinuidades, por lo que no hay necesidad de comprobar por ellos, por lo que es generallly más rápido. En el caso de [kernel] regresión ridge, usted sólo necesita para resolver un sistema de ecuaciones lineales, que es la razón por la que normalmente uso los métodos en lugar de la L1 a la regularización de estos días.