Ya tengo una idea acerca de los pros y los contras de regresión ridge y el LAZO.
Para el LAZO, L1 pena plazo dará lugar a una escasa coeficiente de vector, que puede ser visto como un método de selección de características. Sin embargo, hay algunas limitaciones para el LAZO. Si las funciones tienen una alta correlación, el LAZO solamente se selecciona uno de ellos. Además, para los problemas en los que $p$ > $n$, el LAZO se seleccione en la mayoría de las $n$ parámetros ($n$$p$ son el número de observaciones y parámetros, respectivamente). Esto hace que el LAZO empíricamente un óptimo método en términos de previsibilidad en comparación con cresta de regresión.
Para la regresión ridge, ofrece una mejor capacidad de predicción en general. Sin embargo, su interpretación no es tan bonito como el de LAZO.
La explicación anterior puede encontrarse a menudo en los libros de texto en el aprendizaje de máquina de minería de datos. Sin embargo, todavía estoy confundido acerca de dos cosas:
Si queremos normalizar la función de rango (es decir entre 0 y 1, o con cero la media y la varianza la unidad), y ejecutar la regresión ridge, todavía se puede tener una idea de la función de la importancia de la clasificación de los valores absolutos de los coeficientes (la característica más importante tiene el mayor valor absoluto de los coeficientes). Aunque no somos de la selección de características de forma explícita, la interpretación no se pierde mediante regresión ridge. Al mismo tiempo, aún podemos lograr un alto poder de predicción. Entonces, ¿por qué necesitamos el LAZO? Me estoy perdiendo algo aquí?
Es el LAZO preferido debido a su característica de selección de la naturaleza? A mi entender, las razones por las que necesitamos la selección de características son la capacidad de generalizar y facilidad de cálculo.
Para facilidad de cálculo, no queremos alimentar a todos de 1 millón de características en nuestro modelo, si estamos realizando algunas tareas de PLN, por lo que nos caída de algunos, obviamente, inútil características en primer lugar para reducir el coste computacional. Sin embargo, para el LAZO, sólo podemos conocer la selección de la función de resultado (de la escasa vector) después de alimentar a todos los datos en nuestro modelo, por lo que no se benefician de el LAZO en términos de reducción del coste computacional. Sólo podemos realizar una predicción un poco más rápido, mientras que ahora sólo nos alimentan el subconjunto de características (es decir 500 de 1 millón) en nuestro modelo para generar los resultados esperados.
Si el LAZO es preferido por su capacidad para generalizar, entonces también podemos lograr el mismo objetivo mediante regresión ridge (o cualquier otro tipo de regularización). ¿Por qué necesitamos LAZO (o elástico de redes) de nuevo? ¿Por qué no podemos simplemente seguir a la cresta de la regresión?
Podría alguien por favor, arrojar algo de luz sobre esto? Gracias!