9 votos

Valoración de la mapa como regularización de MLE

Ir a través del artículo de la Wikipedia en Máximo una estimación a posteriori, se puso confuso después de leer esto:

Está estrechamente relacionado con el método de máxima verosimilitud (ML) de estimación, sino que emplea un aumentada objetivo de optimización, el cual incorpora un antes de la distribución (que cuantifica la información adicional disponible a través del conocimiento previo de un evento relacionado con) más de la cantidad que se quiere estimar. MAPA de estimación por lo tanto puede ser visto como una regularización de estimación ML.

¿Cómo puede el MAPA de estimación ser visto como una regularización de estimación ML?

EDITAR:

Mi comprensión de la regularización de ser penalizar a pesos elevados en el contexto de aprendizaje de Máquina. Que se realiza a través de la modificación del problema de optimización mediante la adición de un término en la función de pérdida que contiene los pesos para ser aprendido. Y el objetivo de la minimización de la pérdida, los parámetros con los valores más altos obtener más penalizado.

Una explicación intuitiva es muy bienvenida.

11voto

Jan Kukacka Puntos 1027

Método de probabilidad máxima objetivos en la búsqueda de los parámetros del modelo que mejor se adapten a algunos datos:

$$ \theta_{ML}=\mathrm{argmax}_\theta \,p(x|y,\theta) $$

De máxima verosimilitud no utiliza ningún tipo de conocimiento previo sobre la distribución esperada de los parámetros $\theta$ y por lo tanto puede overfit a los datos particulares $x$, $y$.

Máximo a-posteriori (MAP) método añade una distribución previa de los parámetros $\theta$:

$$ \theta_{MAPA}=\mathrm{argmax}_\theta \, p(x|y,\theta)p(\theta) $$ La solución óptima aún debe coincidir con los datos, pero también ha de ajustarse a sus conocimientos previos sobre el parámetro de la distribución.

Cómo se relaciona con la adición de un regularizer plazo a una pérdida de la función?

En lugar de la optimización de la parte posterior directamente, a menudo se optimiza el negativo del logaritmo en su lugar:

$$ \begin{align} \theta_{MAP}&=\mathrm{argmin}_\theta \, -\log p(x|y,\theta)p(\theta) \\ &=\mathrm{argmin}_\theta \, -(\log p(x|y,\theta) + \log p(\theta)) \end{align} $$

Si desea que los parámetros de $\theta$ a una distribución normal alrededor de cero, se obtiene $\log p(\theta) \propto ||\theta||_2^2$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X