Tengo una pregunta sobre la penalización de red elástica tal como se implementa en glmnet
en R en comparación con el artículo original de Zou y Hastie (2005). En glmnet
la penalización se lista como
(1−α)/2||β||22+||β||1.(1−α)/2||β||22+||β||1.
pero en el artículo es
(1−α)||β||1+α||β||22.(1−α)||β||1+α||β||22.
¿Alguien sabe de dónde proviene el factor 1212? (No importa el hecho de que los αα fueron intercambiados entre las dos parametrizaciones). En ambos casos, las penalizaciones se multiplican por λλ, pero ¿cuáles son los argumentos matemáticos/técnicos para no usar una simple combinación convexa de las penalizaciones lasso y ridge?