46 votos

¿Por qué es de Laplace antes de la escasa producción de soluciones?

Yo estaba mirando a través de la literatura sobre la regularización, y, a menudo, véanse los párrafos que vincula L2 regulatization con Gaussiano antes, y L1 con Laplace centrada en cero.

Yo sé cómo estos priores aspecto, pero no entiendo, ¿cómo se traduce, por ejemplo, los pesos en el modelo lineal. En L1, si entiendo correctamente, esperamos escasa soluciones, es decir, algunos de los pesos será empujado exactamente a cero. Y en la L2 tenemos pequeñas pesas, pero no cero pesos.

Pero ¿por qué sucede?

Por favor comente si tengo que dar más información o aclarar mi camino de pensamiento.

36voto

Dipstick Puntos 4869

La relación de Laplace de distribución antes con la mediana (o L1 norma) fue encontrado por Laplace mismo, que encontró que el uso de tales antes de calcular la mediana en lugar de decir como con distribución Normal (ver Stingler, de 1986, o la Wikipedia). Esto significa que la regresión con Laplace errores en la distribución de las estimaciones de la mediana (como por ejemplo, el cuantil de regresión), mientras que el Normal de los errores se refieren a la estimación OLS.

La robusta priores que le pidieron fueron descritos también por Tibshirani (1996) quien se dio cuenta de que el fuerte Lazo de regresión Bayesiana valor es equivalente al uso de Laplace antes. El consentimiento previo de los coeficientes se centra alrededor de cero (con centrado en variables) y tiene una amplia colas - de modo que la mayoría de los coeficientes de regresión estimados utilizando a terminar siendo exactamente cero. Esto es evidente si se mira de cerca en la imagen de abajo, Laplace de distribución tiene un pico de alrededor de cero (hay una mayor distribución de la masa), mientras que la distribución Normal es más difusa en torno a cero, de modo que valores distintos de cero, tienen mayor probabilidad de masas. Otras posibilidades para la robusta priores son de Cauchy o $t$- distribuciones.

El uso de tales antecedentes son más propensos a terminar con muchos de cero con valores de coeficientes, algunos de tamaño moderado y algunos de gran tamaño (long tail), mientras que con la Normalidad antes de que usted consiga más moderado del tamaño de los coeficientes que son más bien no es exactamente cero, pero también no muy lejos del cero.

enter image description here

(fuente de la imagen Tibshirani, 1996)


Stigler, S. M. (1986). La Historia de la Estadística: La Medición de la Incertidumbre Antes de 1900. Cambridge, MA: Belknap Press de Harvard University Press.

Tibshirani, R. (1996). La regresión de la contracción y la selección a través del lazo. Diario de la Sociedad Real de Estadística. Serie B (Metodológico), 267-288.

Gelman, A., Jakulin, A., Pittau, G. M., y Su, Y. S. (2008). Una débil informativo predeterminado antes de la distribución para la logística y otros modelos de regresión. Los Anales de la Estadística Aplicada, 2(4), 1360-1383.

Norton, R. M. (1984). La Doble Distribución Exponencial: Utilizando el Cálculo para Encontrar un Estimador de Máxima Verosimilitud. El Estadístico Americano, 38(2): 135-136.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X