5 votos

¿Cómo añadir un término de regularización autodefinido en la regresión ridge?

En la típica regresión ridge o (lasso en un sentido más general). Tenemos un término de regularización después del término de error MSE

$cost = \sum{(y_{i} - \beta x_{i})^{2}} + \lambda\sum{|\beta|^{2}}$

Sin embargo, creo que en la mayoría de los casos de ingeniería, podría haber un conocimiento a-priori sobre la $\beta$ . Por ejemplo, el precio de la vivienda debería estar positivamente correlacionado con la renta familiar media. Esta relación NO debería ser negativa desde el punto de vista de la lógica empresarial: la gente gana demasiado dinero y el precio de la vivienda baja, esto no tiene sentido.

Estoy seguro de que la gente habrá mirado a Ridge/Lasso desde una perspectiva bayesiana:

$cost = \sum{(y_{i} - \beta x_{i})^{2}} + \sum{\lambda_{i}|\beta_{i}-\hat{\beta}_{i}|^{2}}$

donde $\hat{\beta}$ lleva información sobre lo que $\beta$ debería ser.

Esto parece bonito sobre el papel, pero en la práctica, $\beta$ puede no ser gaussiano. Usando el ejemplo del precio de la vivienda, sólo sé $\beta$ es positivo. Así que el término de penalización no es suave/diferenciable. Por lo tanto, será difícil abordar el problema utilizando un enfoque de gradiente

Me pregunto si existe un enfoque "universal" que pueda resolver la regresión de propósito general anterior.

¿Alguien tiene alguna idea al respecto?

2voto

Tony BenBrahim Puntos 3827

Puedes añadir limitaciones adicionales de positividad. Obtendrías varias restricciones de positividad. Dependiendo de la complejidad de tus restricciones, puedes resolverlo con un algoritmo de optimización, ver programación cuadrática y esta entrada

1 votos

El descenso de gradiente de vainilla no puede manejar las restricciones de positividad

0 votos

Tienes razón. Necesitamos QP.

0 votos

Merece la pena añadir que QP en general es NP-Hard, por lo que "resolverlo" a veces es inviable.

2voto

throwaway Puntos 18

Describiré dos grandes enfoques: el enfoque bayesiano (en el que el conocimiento previo entra en forma de distribución previa) y el enfoque de optimización (en el que el conocimiento previo entra en forma de restricciones y/o penalizaciones).

Los métodos de regresión que ha mencionado pueden aplicarse en un marco bayesiano. Lasso y ridge regression corresponden al modelo:

$$p(y \mid x, \beta, \sigma^2) = \mathcal{N}(x \beta, \sigma^2)$$

Cada uno de estos métodos equivale a realizar una estimación MAP. El método Lasso asigna una prioridad Laplaciana de media cero a los pesos, y la regresión Ridge utiliza una prioridad Gaussiana de media cero. La amplitud de la prioridad se controla mediante el parámetro de regularización. La función de pérdida que ha escrito sería equivalente a utilizar una prioridad gaussiana con media $\hat{\beta}$ .

Un enfoque bayesiano es un ejemplo del tipo de enfoque "universal" que buscas. Realice una estimación MAP o una Bayes completa y encuentre el valor esperado de la variable posterior. Elija la variable a priori en función de los conocimientos/supuestos que desee imponer. Por ejemplo, si desea imponer restricciones de no negatividad, puede utilizar una prior que sea cero sobre pesos negativos. Puede elegir una función de verosimilitud diferente si no cree que los errores son i.i.d. gaussianos, etc.

Otro enfoque "universal" consiste en añadir términos de penalización a la función de pérdida o a las restricciones del problema de optimización. Por ejemplo, se pueden imponer restricciones de no negatividad, como señaló @Mortezaaa:

$$\min_\beta \|y - x \beta\|^2 \quad \text{s.t. } \beta_i \ge 0 \enspace \forall i$$

También es posible codificar supuestos más complicados. Por ejemplo, el siguiente problema impone una penalización de suavidad a los pesos:

$$\min_\beta \|y - x \beta\|^2 + \lambda \sum_{i=2}^d (\beta_i - \beta_{i-1})^2$$

Aumento del parámetro de penalización $\lambda$ fuerza a los pesos vecinos a ser más similares entre sí, aumentando la suavidad.

Puede elegir la forma de la penalización/limitación para imponer todo tipo de estructura. Muchas formas de restricción tienen formas de penalización/lagrangianas equivalentes (y viceversa), y muchas de ellas tienen equivalentes bayesianos (como en el caso de la regresión lasso/ridge).

Al adoptar este enfoque, es importante tener en cuenta que algunas funciones de pérdida y restricciones pueden dar lugar a un problema más complicado (o incluso intratable). En estos casos, puede que sólo sea posible obtener una solución aproximada o localmente óptima. Algunos problemas también requieren algoritmos de optimización más especializados. Por ejemplo, la regresión de cresta puede resolverse mediante técnicas sencillas de optimización convexa, pero el lazo requiere un solucionador más especializado.

1voto

kentaromiura Puntos 3361

Me gustaría añadir que otra forma de tener en cuenta el conocimiento previo es utilizar la regresión de cresta adaptativa o la regresión LASSO adaptativa, donde la lambdas con la que penaliza sus variables viene dada entonces por lambda*adaptive_penalty_weights donde adaptive_penalty_weights=1/(abs(betas_prior)+small_epsilon)^2 (normalmente renormalizado para sumar el nr de observaciones n ) y donde betas_prior es su creencia previa de lo que sus coeficientes deben ser (a menudo se establecen en OLS o NNLS o regulares estimaciones de regresión ridge). En términos bayesianos, la regresión LASSO adaptativa equivale a suponer una prioridad laplaciana (exponencial si se imponen restricciones de no negatividad), mientras que la regresión de cresta adaptativa equivale a suponer una prioridad gaussiana (gaussiana truncada con restricciones de no negatividad). En glmnet existe el penalty.factor argumento para ajustarse a tales modelos. Glmnet también permite establecer restricciones de no negatividad en determinados coeficientes mediante el argumento lower.limits (ya que toma un vector como entrada).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X