28 votos

Pregunta sobre la estandarización en la regresión ridge

¡Hola chicos! Encontré uno o dos documentos que utilizan regresión de ridge (para datos de baloncesto). Siempre me dijeron que debía estandarizar mis variables si realizaba una regresión de ridge, pero simplemente me dijeron que lo hiciera porque ridge era variante de escala (la regresión de ridge no era realmente parte de nuestro curso, así que nuestro profesor la pasó por alto).

Estos documentos que leí no estandarizaron sus variables, lo cual me resultó un poco sorprendente. También terminaron con valores grandes de lambda (alrededor del nivel de 2000-4000) a través de la validación cruzada, y me dijeron que esto se debe a no estandarizar las variables.

¿Cómo es exactamente que dejar la variable(s) no estandarizadas lleva a valores altos de lambda y también, cuáles son las consecuencias de no estandarizar las variables en general? ¿Realmente es tan importante?

Cualquier ayuda es muy apreciada.

31voto

David Plumpton Puntos 1345

La regresión de Ridge regulariza la regresión lineal imponiendo una penalización sobre el tamaño de los coeficientes. Por lo tanto, los coeficientes se reducen hacia cero y entre sí. Pero cuando esto sucede y si las variables independientes no tienen la misma escala, la reducción no es justa. Dos variables independientes con escalas diferentes tendrán contribuciones diferentes a los términos penalizados, porque el término penalizado es una suma de cuadrados de todos los coeficientes. Para evitar este tipo de problemas, a menudo, las variables independientes se centran y escalan para tener una varianza de 1.

[Edición posterior para responder al comentario]

Supongamos ahora que tienes una variable independiente $altura$. Ahora bien, la altura humana puede medirse en pulgadas, metros o kilómetros. Si se mide en kilómetros, entonces en la regresión lineal estándar creo que dará un término de coeficiente mucho más grande que si se mide en milímetros.

El término de penalización con lambda es el mismo que expresar la función de pérdida cuadrática con respecto a la suma de cuadrados de coeficientes menor o igual a una constante dada. Eso significa que un lambda más grande da mucho espacio a la suma de cuadrados de coeficientes, y un lambda más bajo un espacio más pequeño. Un espacio más grande o más pequeño significa valores absolutos de coeficientes más grandes o más pequeños.

Si no se utiliza la estandarización, entonces para ajustar el modelo podría requerir valores absolutos grandes de los coeficientes. Por supuesto, podríamos tener un valor de coeficiente grande naturalmente, debido al papel de la variable en el modelo. Lo que afirmo es que este valor podría tener un valor artificialmente inflado debido a la falta de escala. Entonces, la escala también disminuye la necesidad de valores grandes de coeficientes. Por lo tanto, el valor óptimo de lambda suele ser más pequeño, lo que corresponde a una suma más pequeña de los valores al cuadrado de los coeficientes.

0 votos

Gracias. ¿Cómo haría que no estandariza conduce a un error de prueba estimado más alto (a través de la validación cruzada), y por lo tanto es necesaria una lambda más alta?

0 votos

He añadido mi pensamiento en la respuesta

0 votos

Sé que esta es una pregunta antigua, pero ¿podrías explicar tal vez por qué el Parámetro de Ajuste debería aumentar, si transformamos nuestros datos de kilómetros a metros, por ejemplo?

8voto

Andrew Simons Puntos 91

Aunque cuatro años tarde, espero que alguien se beneficie de esto.... La forma en que lo entendí, coeff es cuánto cambia la variable objetivo por un cambio unitario en la variable independiente (dy / dx). Supongamos que estamos estudiando la relación entre peso y altura y el peso se mide en Kg. Cuando usamos Kilómetros para la altura, puedes imaginar que la mayoría de los puntos de datos (para la altura humana) están cercanamente agrupados. Por lo tanto, para un pequeño cambio fraccional en la altura habrá un gran cambio en el peso (asumiendo que el peso aumenta con la altura). La proporción dy / dx será enorme. Por otro lado, si la altura se mide en milímetros, los datos estarán dispersos de forma amplia en los atributos de altura. Un cambio unitario en la altura no tendrá un cambio significativo en el peso dy / dx será muy pequeño, casi cercano a 0. Lambda tendrá que ser mayor cuando la altura esté en Km en comparación con lambda cuando la altura esté en milímetros

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X