31 votos

¿Cuándo normalizar datos en regresión?

¿En qué circunstancias se debe normalizar/estandarizar los datos al construir un modelo de regresión? Cuando le hice esta pregunta a un experto en estadísticas, me dio una respuesta ambigua "depende de los datos".

Pero, ¿qué significa realmente eso? Debería ser una regla universal o una lista de verificación donde si se cumplen ciertas condiciones entonces los datos deberían/ no deberían normalizarse.

2 votos

Debería ser una regla universal o una lista de verificación de algún tipo donde si se cumplen ciertas condiciones, los datos deberían o no deberían normalizarse. ¿Puedes justificar eso?

1 votos

¿Estás preguntando sobre la regresión lineal estándar, o sobre métodos penalizados como la regresión de ridge o LASSO?

0 votos

@MatthewDrury: Lo que quiero decir es que los datos deben normalizarse para construir todos los modelos de regresión (OLS, Logístico, etc) o hacerlo cuando no se cumplan ciertas condiciones como la varianza no constante...etc (hablando hipotéticamente)

24voto

kjetil b halvorsen Puntos 7012

A veces la estandarización ayuda con problemas numéricos (no tanto en estos días con las rutinas modernas de álgebra lineal numérica) o para interpretación, como se menciona en la otra respuesta. Aquí hay una "regla" que usaré para responder la respuesta yo mismo: ¿Es el método de regresión que estás usando invariante, en el sentido de que la respuesta sustantiva no cambia con la estandarización? Mínimos cuadrados ordinarios es invariante, mientras que métodos como lasso o regresión ridge no lo son. Por lo tanto, para métodos invariantes no hay una necesidad real de estandarización, mientras que para métodos no invariantes probablemente debas estandarizar. (O al menos pensarlo bien).

Lo siguiente está relacionado: Eliminar una de las columnas al usar codificación one-hot

0 votos

¿Al decir que OLS es "invariante", te refieres a que es "invariante en escala", donde la escala es el rango de los números en los predictores/columnas alimentados a OLS?

7voto

mdewey Puntos 579

A veces es más fácil interpretar si restas la media o algún número dentro del rango de los valores reales, ya que esto puede hacer que la intersección sea más significativa. Por ejemplo, si tienes personas de 65 años o más, resta 65 y luego la intersección será el valor predicho para un adulto de 65 años en lugar de un recién nacido. Si tienes términos no lineales como potencias, esto los hace menos correlacionados y por lo tanto puedes ver más fácilmente lo que está sucediendo. También puede facilitar la vida escalar el predictor para mover los coeficientes a un rango más imprimible. Por ejemplo, convirtiendo días en semanas o meses. Aparte de eso, no debería importar. Supongo que parte de lo que acabo de escribir puede ser lo que tu amigo quería decir con que depende de los datos.

4 votos

La correlación entre predictores no se ve afectada al restar medias, por lo que nada está menos correlacionado que antes.

0 votos

Tienes razón @Nick, mis disculpas. Solo son términos no lineales para los que ayuda.

0 votos

"términos no lineales como potencias esto los hace menos correlacionados" esta es una verdad general porque para mí suena bien la conexión entre correlación y la no linealidad. ¿No estaría una variable en una potencia completamente correlacionada con una respuesta Y? Pregunto esto porque después infiero que la estandarización en un modelo de regresión lineal con ridge parece innecesaria. Gracias

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X