Describiré dos grandes enfoques: el enfoque bayesiano (en el que el conocimiento previo entra en forma de distribución previa) y el enfoque de optimización (en el que el conocimiento previo entra en forma de restricciones y/o penalizaciones).
Los métodos de regresión que ha mencionado pueden aplicarse en un marco bayesiano. Lasso y ridge regression corresponden al modelo:
$$p(y \mid x, \beta, \sigma^2) = \mathcal{N}(x \beta, \sigma^2)$$
Cada uno de estos métodos equivale a realizar una estimación MAP. El método Lasso asigna una prioridad Laplaciana de media cero a los pesos, y la regresión Ridge utiliza una prioridad Gaussiana de media cero. La amplitud de la prioridad se controla mediante el parámetro de regularización. La función de pérdida que ha escrito sería equivalente a utilizar una prioridad gaussiana con media $\hat{\beta}$ .
Un enfoque bayesiano es un ejemplo del tipo de enfoque "universal" que buscas. Realice una estimación MAP o una Bayes completa y encuentre el valor esperado de la variable posterior. Elija la variable a priori en función de los conocimientos/supuestos que desee imponer. Por ejemplo, si desea imponer restricciones de no negatividad, puede utilizar una prior que sea cero sobre pesos negativos. Puede elegir una función de verosimilitud diferente si no cree que los errores son i.i.d. gaussianos, etc.
Otro enfoque "universal" consiste en añadir términos de penalización a la función de pérdida o a las restricciones del problema de optimización. Por ejemplo, se pueden imponer restricciones de no negatividad, como señaló @Mortezaaa:
$$\min_\beta \|y - x \beta\|^2 \quad \text{s.t. } \beta_i \ge 0 \enspace \forall i$$
También es posible codificar supuestos más complicados. Por ejemplo, el siguiente problema impone una penalización de suavidad a los pesos:
$$\min_\beta \|y - x \beta\|^2 + \lambda \sum_{i=2}^d (\beta_i - \beta_{i-1})^2$$
Aumento del parámetro de penalización $\lambda$ fuerza a los pesos vecinos a ser más similares entre sí, aumentando la suavidad.
Puede elegir la forma de la penalización/limitación para imponer todo tipo de estructura. Muchas formas de restricción tienen formas de penalización/lagrangianas equivalentes (y viceversa), y muchas de ellas tienen equivalentes bayesianos (como en el caso de la regresión lasso/ridge).
Al adoptar este enfoque, es importante tener en cuenta que algunas funciones de pérdida y restricciones pueden dar lugar a un problema más complicado (o incluso intratable). En estos casos, puede que sólo sea posible obtener una solución aproximada o localmente óptima. Algunos problemas también requieren algoritmos de optimización más especializados. Por ejemplo, la regresión de cresta puede resolverse mediante técnicas sencillas de optimización convexa, pero el lazo requiere un solucionador más especializado.