Todos estamos familiarizados con la noción, bien documentada en la literatura, de que la optimización LASSO (en aras de la simplicidad limitamos aquí la atención al caso de la regresión lineal) loss=‖y−Xβ‖22+λ‖β‖1 es equivalente al modelo lineal con errores gaussianos en el que los parámetros reciben la prioridad de Laplace
\exp(-\lambda \| \beta \|_1 ) También somos conscientes de que cuanto mayor sea, mayor será el parámetro de sintonización, \lambda mayor es la parte de parámetros que se ponen a cero. Dicho esto, tengo la siguiente pregunta de pensamiento:
Consideremos que desde el punto de vista bayesiano podemos calcular la probabilidad posterior de que, digamos, las estimaciones de los parámetros distintos de cero se encuentren en cualquier colección de intervalos dada y los parámetros puestos a cero por el LASSO son iguales a cero. Lo que me confunde es que, dado que la prioridad de Laplace es continua (de hecho, absolutamente continua), ¿cómo puede haber una masa en cualquier conjunto que sea un producto de intervalos y de singletons en \{0\} ?