1 votos

Penalización de red elástica

Tengo una pregunta sobre la penalización de red elástica tal como se implementa en glmnet en R en comparación con el artículo original de Zou y Hastie (2005). En glmnet la penalización se lista como

(1α)/2||β||22+||β||1.(1α)/2||β||22+||β||1.

pero en el artículo es

(1α)||β||1+α||β||22.(1α)||β||1+α||β||22.

¿Alguien sabe de dónde proviene el factor 1212? (No importa el hecho de que los αα fueron intercambiados entre las dos parametrizaciones). En ambos casos, las penalizaciones se multiplican por λλ, pero ¿cuáles son los argumentos matemáticos/técnicos para no usar una simple combinación convexa de las penalizaciones lasso y ridge?

4voto

eldering Puntos 3814

Ambos de estos son simples combinaciones convexas de penalizaciones Lasso y Ridge, solo el significado de la penalización de Ridge es ligeramente diferente en cada uno.

En el primero, se toma el término de penalización de Ridge como

12|β|2212|β|22

y en el segundo se toma la penalización de Ridge como

|β|22|β|22

La forma en que está escrito como α12|β|22α12|β|22 es, desafortunadamente, un poco confuso. Deberías pensar en el 1212 como parte de la penalización y no parte de la combinación convexa.

¿Por qué el 1212 en absoluto? En ciertos cálculos (por ejemplo, al derivar el paso de actualización en glmnet) necesitas tomar un gradiente con respecto a ββ. El 1212 es matemáticamente conveniente de tener, ya que se cancela con el exponente de 22 después de la diferenciación. Dado que no afecta conceptualmente incluir el 1212, muchas personas lo hacen.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X