¿Cómo añadir un término de regularización autodefinido en la regresión ridge?

Question

¿Cómo añadir un término de regularización autodefinido en la regresión ridge?

Preguntado el 16 de Marzo, 2017: Cuando se hizo la pregunta
174 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

En la típica regresión ridge o (lasso en un sentido más general). Tenemos un término de regularización después del término de error MSE

$cost = \sum{(y_{i} - \beta x_{i})^{2}} + \lambda\sum{|\beta|^{2}}$

Sin embargo, creo que en la mayoría de los casos de ingeniería, podría haber un conocimiento a-priori sobre la $\beta$ . Por ejemplo, el precio de la vivienda debería estar positivamente correlacionado con la renta familiar media. Esta relación NO debería ser negativa desde el punto de vista de la lógica empresarial: la gente gana demasiado dinero y el precio de la vivienda baja, esto no tiene sentido.

Estoy seguro de que la gente habrá mirado a Ridge/Lasso desde una perspectiva bayesiana:

$cost = \sum{(y_{i} - \beta x_{i})^{2}} + \sum{\lambda_{i}|\beta_{i}-\hat{\beta}_{i}|^{2}}$

donde $\hat{\beta}$ lleva información sobre lo que $\beta$ debería ser.

Esto parece bonito sobre el papel, pero en la práctica, $\beta$ puede no ser gaussiano. Usando el ejemplo del precio de la vivienda, sólo sé $\beta$ es positivo. Así que el término de penalización no es suave/diferenciable. Por lo tanto, será difícil abordar el problema utilizando un enfoque de gradiente

Me pregunto si existe un enfoque "universal" que pueda resolver la regresión de propósito general anterior.

¿Alguien tiene alguna idea al respecto?

Preguntado el 16 de Marzo, 2017 por user152503

Answer 1

3 Respuestas

Answer 2

2voto

Tony BenBrahim Puntos 3827

Puedes añadir limitaciones adicionales de positividad. Obtendrías varias restricciones de positividad. Dependiendo de la complejidad de tus restricciones, puedes resolverlo con un algoritmo de optimización, ver programación cuadrática y esta entrada

Respondido el 16 de Marzo, 2017 por Tony BenBrahim (3827 Puntos )

1 votos

El descenso de gradiente de vainilla no puede manejar las restricciones de positividad

Comentado el 16 de Marzo, 2017 por throwaway

0 votos

Tienes razón. Necesitamos QP.

Comentado el 16 de Marzo, 2017 por Tony BenBrahim

0 votos

Merece la pena añadir que QP en general es NP-Hard, por lo que "resolverlo" a veces es inviable.

Comentado el 16 de Marzo, 2017 por Gaz Davidson

Mostrar 8 comentarios más

Answer 3

2voto

throwaway Puntos 18

Describiré dos grandes enfoques: el enfoque bayesiano (en el que el conocimiento previo entra en forma de distribución previa) y el enfoque de optimización (en el que el conocimiento previo entra en forma de restricciones y/o penalizaciones).

Los métodos de regresión que ha mencionado pueden aplicarse en un marco bayesiano. Lasso y ridge regression corresponden al modelo:

$p(y \mid x, \beta, \sigma^2) = \mathcal{N}(x \beta, \sigma^2)$

Cada uno de estos métodos equivale a realizar una estimación MAP. El método Lasso asigna una prioridad Laplaciana de media cero a los pesos, y la regresión Ridge utiliza una prioridad Gaussiana de media cero. La amplitud de la prioridad se controla mediante el parámetro de regularización. La función de pérdida que ha escrito sería equivalente a utilizar una prioridad gaussiana con media $\hat{\beta}$ .

Un enfoque bayesiano es un ejemplo del tipo de enfoque "universal" que buscas. Realice una estimación MAP o una Bayes completa y encuentre el valor esperado de la variable posterior. Elija la variable a priori en función de los conocimientos/supuestos que desee imponer. Por ejemplo, si desea imponer restricciones de no negatividad, puede utilizar una prior que sea cero sobre pesos negativos. Puede elegir una función de verosimilitud diferente si no cree que los errores son i.i.d. gaussianos, etc.

Otro enfoque "universal" consiste en añadir términos de penalización a la función de pérdida o a las restricciones del problema de optimización. Por ejemplo, se pueden imponer restricciones de no negatividad, como señaló @Mortezaaa:

$\min_\beta \|y - x \beta\|^2 \quad \text{s.t. } \beta_i \ge 0 \enspace \forall i$

También es posible codificar supuestos más complicados. Por ejemplo, el siguiente problema impone una penalización de suavidad a los pesos:

$\min_\beta \|y - x \beta\|^2 + \lambda \sum_{i=2}^d (\beta_i - \beta_{i-1})^2$

Aumento del parámetro de penalización $\lambda$ fuerza a los pesos vecinos a ser más similares entre sí, aumentando la suavidad.

Puede elegir la forma de la penalización/limitación para imponer todo tipo de estructura. Muchas formas de restricción tienen formas de penalización/lagrangianas equivalentes (y viceversa), y muchas de ellas tienen equivalentes bayesianos (como en el caso de la regresión lasso/ridge).

Al adoptar este enfoque, es importante tener en cuenta que algunas funciones de pérdida y restricciones pueden dar lugar a un problema más complicado (o incluso intratable). En estos casos, puede que sólo sea posible obtener una solución aproximada o localmente óptima. Algunos problemas también requieren algoritmos de optimización más especializados. Por ejemplo, la regresión de cresta puede resolverse mediante técnicas sencillas de optimización convexa, pero el lazo requiere un solucionador más especializado.

Respondido el 16 de Marzo, 2017 por throwaway (18 Puntos )

Answer 4

1voto

kentaromiura Puntos 3361

Me gustaría añadir que otra forma de tener en cuenta el conocimiento previo es utilizar la regresión de cresta adaptativa o la regresión LASSO adaptativa, donde la lambdas con la que penaliza sus variables viene dada entonces por lambda*adaptive_penalty_weights donde adaptive_penalty_weights=1/(abs(betas_prior)+small_epsilon)^2 (normalmente renormalizado para sumar el nr de observaciones n ) y donde betas_prior es su creencia previa de lo que sus coeficientes deben ser (a menudo se establecen en OLS o NNLS o regulares estimaciones de regresión ridge). En términos bayesianos, la regresión LASSO adaptativa equivale a suponer una prioridad laplaciana (exponencial si se imponen restricciones de no negatividad), mientras que la regresión de cresta adaptativa equivale a suponer una prioridad gaussiana (gaussiana truncada con restricciones de no negatividad). En glmnet existe el penalty.factor argumento para ajustarse a tales modelos. Glmnet también permite establecer restricciones de no negatividad en determinados coeficientes mediante el argumento lower.limits (ya que toma un vector como entrada).

Respondido el 26 de Abril, 2019 por kentaromiura (3361 Puntos )

¿Cómo añadir un término de regularización autodefinido en la regresión ridge?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo añadir un término de regularización autodefinido en la regresión ridge?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: