Processing math: 12%

22 votos

Si el LASSO es equivalente a la regresión lineal con una prioridad de Laplace, ¿cómo puede haber masa en conjuntos con componentes en cero?

Todos estamos familiarizados con la noción, bien documentada en la literatura, de que la optimización LASSO (en aras de la simplicidad limitamos aquí la atención al caso de la regresión lineal) loss=yXβ22+λβ1 es equivalente al modelo lineal con errores gaussianos en el que los parámetros reciben la prioridad de Laplace
\exp(-\lambda \| \beta \|_1 ) También somos conscientes de que cuanto mayor sea, mayor será el parámetro de sintonización, \lambda mayor es la parte de parámetros que se ponen a cero. Dicho esto, tengo la siguiente pregunta de pensamiento:

Consideremos que desde el punto de vista bayesiano podemos calcular la probabilidad posterior de que, digamos, las estimaciones de los parámetros distintos de cero se encuentren en cualquier colección de intervalos dada y los parámetros puestos a cero por el LASSO son iguales a cero. Lo que me confunde es que, dado que la prioridad de Laplace es continua (de hecho, absolutamente continua), ¿cómo puede haber una masa en cualquier conjunto que sea un producto de intervalos y de singletons en \{0\} ?

7voto

Nick Demyanchuk Puntos 441

Como todos los comentarios anteriores, la interpretación bayesiana de LASSO es no tomando el valor esperado de la distribución posterior, que es lo que querrías hacer si fueras un purista. Si ese fuera el caso, entonces tendrías razón en que hay muy pocas probabilidades de que la distribución posterior fuera cero dados los datos.

En realidad, la interpretación bayesiana de LASSO es tomar el estimador MAP (Maximum A Posteriori) de la posterior. Parece que está familiarizado, pero para cualquiera que no lo esté, esto es básicamente Máxima Verosimilitud Bayesiana, donde se utiliza el valor que corresponde a la máxima probabilidad de ocurrencia (o la moda) como su estimador para los parámetros en LASSO. Dado que la distribución aumenta exponencialmente hasta cero desde la dirección negativa y cae exponencialmente en la dirección positiva, a menos que sus datos sugieran fuertemente que la beta es algún otro valor significativo, el valor máximo de valor de su posterior es probable que sea 0.

Resumiendo, tu intuición parece basarse en la media de la posterior, pero la interpretación bayesiana de LASSO se basa en tomar la moda de la posterior.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X