4 votos

LASSO - ¿se necesita normalización de la variable de respuesta?

Me pregunto si la variable de respuesta necesita ser normalizada antes de la estimación de LASSO (estoy usando el paquete lars en R para realizar la estimación de LASSO). Supongo que solo las variables del lado derecho necesitan ser normalizadas, ¿es correcto?

Para efectos de interpretación, preferiría solo normalizar las variables del lado derecho y dejar fuera la variable de respuesta. Si esto está bien, supongo que necesito normalizar los datos por mi cuenta ya que el argumento 'normalize' en el paquete lars realiza la normalización en todas las variables, incluida la variable de respuesta, al menos eso creo.

¡Gracias por la ayuda!

4voto

EdM Puntos 5716

No es necesario normalizar la variable de respuesta, ya que eso simplemente escala el término de error que el procedimiento minimiza.

No parece que lars normalice la variable de respuesta, de todos modos. Examine el código cargando el paquete y escribiendo "lars" (sin comillas ni paréntesis) en el prompt de R. Según leo el código, si "normalize=TRUE" entonces solo las variables x (predictoras/"lado derecho") se normalizan. La variable y (respuesta) queda intacta. Sospecho que la afirmación en la documentación de que "cada variable se estandariza para tener una norma L2 unitaria" solo se refería a los valores x.

2 votos

Como información adicional, glment estandariza $y$ al hacer regresión lineal (red elástica).

0 votos

¡¡¡Muchas gracias por tu pronta respuesta!!! Después de revisar el código fuente, concuerdo contigo en que "normalize=TRUE" solo se aplica a los predictores.

1voto

user39770 Puntos 9

No 'necesitas' hacer nada, pero es altamente recomendable normalizar las variables. Esto se debe a que Lasso es una técnica que penaliza los coeficientes grandes. Si las variables están en diferentes escalas, la técnica tenderá a penalizar solo las variables en la escala más pequeña, ya que tendrán el coeficiente más grande. Por ejemplo, si y~x y z, y w son ruido, entonces Lasso solo dará el modelo correcto y~x. Sin embargo, si x1 = 10^{-100}x entonces el modelo adecuado para predecir y en términos de x1,z,w sería y~(10^{100})x1. Sin embargo, si los coeficientes están limitados a ser menos que eso en valor absoluto, Lasso no puede dar el modelo correcto. Cuanto más estén limitados los coeficientes, peor será el modelo. Puedes imaginar que si se está prediciendo y en dos variables (igual de importantes), ocurrirá el mismo tipo de problema.

0 votos

Gracias por la aclaración adicional respecto a la normalización dentro del contexto de LASSO, ¡comentarios muy útiles!

0 votos

Entonces la pregunta es sobre normalizar la variable de respuesta (y) no las características (x)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X