7 votos

¿Bayesiano eventos: Cómo parámetro iterativo actualiza trabajo?

He estado luchando con esto por un tiempo. Un típico problema de optimización puede ser visto como la optimización de cierta función de coste, que es una combinación de un plazo de datos y un término de penalización que anima a determinadas soluciones. Y normalmente hay una ponderación plazo entre los dos.

En el bayesiano, esto puede ser interpretado con la habitual antes y la probabilidad de la función. En el actual problema que estoy tratando de entender, que modelo de la previa como una normal multivariante con cero significa y la precisión de la matriz igual a $\lambda \Lambda$ donde $\lambda$ puede ser pensado de esta regularización de la ponderación y la $\Lambda$ es que algunos adecuadas precisión de la matriz de estructura que codifica las posibles soluciones de alguna manera. En mi caso en particular, la precisión de la matriz codifica algunos suavidad restricciones en los parámetros estimados es decir, el antes de anima lisa de soluciones. En este caso, $\lambda$ denota la fuerza de esta suavidad término de penalización. Un $\lambda$ cero significaría que el ML estimar que sólo nos optimizar la función de coste es decir, la probabilidad de la función. Esto es debido a que como $\lambda$ disminuye, la precisión disminuye y, por tanto, la varianza de cada uno de los parámetros en la previa aumenta. Así, los valores bajos de $\lambda$ se moverá hacia la unregularized solución.

Ahora, una típica cosa que he visto es que hay algún tipo de un esquema iterativo, donde primero vamos a empezar con una aproximación a $\lambda$ y calcular la distribución a través de otros parámetros de interés mediante algún esquema aproximado como variacional de Bayes o Expectativa de Propagación y, a continuación, utilizar esta aproximación para actualizar nuestra estimación de $\lambda$ (suponiendo que los priores $\lambda$ son de la forma conjugada, generalmente se hace con una distribución Gamma que también mantiene positivo).

Ahora, mi pregunta es que si puedo empezar con un valor muy bajo para $\lambda$ mi aproximación, a continuación, el antes de que el término casi no tiene ningún efecto. Sería esto no empuje la estimación de la distribución hacia las soluciones que son menos plausible es decir, básicamente, dar de alta de probabilidades a unregularized soluciones? Estoy teniendo un montón de problemas para la comprensión de cómo esta actualización de esquema pueden encontrar buenos valores de $\lambda$ es decir, hallar el valor de $\lambda$ que es óptima con respecto a los datos observados. Así que, básicamente lo que tengo problemas para entender que es lo que está deteniendo la inferencia a la unidad de este valor de $\lambda$ a cero o cerca de cero a preferir la unregularized estimación de máxima verosimilitud? Yo realmente no veo cómo este valor de $\lambda$ está siendo impulsado por los datos o la evidencia plazo.

5voto

jpmuc Puntos 4817

El problema de encontrar la hyperparameters se llama evidencia de aproximación. Está muy bien explicado en el Obispo del libro (página 166), o de lo contrario en este documento, en gran detalle.

La idea es que tu problema tiene la forma canónica (la distribución predictiva para una nueva muestra), $$ p(t|\mathbf{t}) = \int p(t|\mathbf{w},\alpha) p(\mathbf{w}|\mathbf{t},\alpha,\beta)p(\alpha,\beta|\mathbf{t}) d\mathbf{w} d\alpha d\beta $$ donde $\mathbf{t}$ es los datos de su entrenamiento, $\alpha,\beta$ son hyperparameters, y $\mathbf{w}$ son los pesos.

En primer lugar, calcular esta integral es caro o tal vez incluso intratable, y tiene una dificultad adicional: $p(\alpha,\beta|\mathbf{t})$. Este término nos dice que tenemos que integrar sobre el conjunto de interpolators. En la práctica significa que usted entrenar a su conjunto, es decir, cada una de las $p(\mathbf{t}|\alpha,\beta)$, y usando el teorema de Bayes, $$ p(\alpha,\beta|\mathbf{t}) \propto p(\mathbf{t}|\alpha,\beta) p(\alpha,\beta) $$ podría calcular cada término de la aplicación de Bayes. Y, finalmente, la suma sobre todos ellos.

La evidencia marco asume (en el referido documento de condiciones de validez de esta hipótesis) que $p(\alpha,\beta|\mathbf{t})$ un pico dominante en algunos de los valores de $\hat{\alpha},\hat{\beta}$. Bajo este supuesto se sustituya la integral por un punto de la estimación en el pico, es decir, $$ p(t|\mathbf{t}) \approx \int p(t|\mathbf{w},\alpha) p(\mathbf{w}|\mathbf{t},\hat{\alpha},\hat{\beta}) $$

Si la anterior es relativamente plana, entonces el problema de encontrar $\hat{\alpha}$ $\hat{\beta}$ finalmente se reduce a maximizar la probabilidad de $p(\mathbf{t}|\alpha,\beta)$. En su caso, la integral término tiene una forma cerrada de la solución (es también de Gauss).

P. S. En las estadísticas de este método es conocido como empírico de Bayes. Si se busca en google, usted encontrará un par de referencias. Esto me parece una muy muy agradable, ya que se trabaja más fácil los problemas en detalle, y se introduce cuidadosamente todos los términos necesarios.

0voto

shavenwarthog Puntos 101

Ok, finalmente me di cuenta de la razón intuitiva o este. Gracias a @juampa por la punta. La cosa Obispo en su libro que la trajo a casa el punto de que para mi fue la figura 3.13. La cosa es que tenemos que pensar en lo que sucede con el modelo de pruebas con relación a la complejidad del modelo.

Así que, en mi ejemplo, cuando el plazo de regularización $\lambda$ es bajo, significa que el predictivo de la distribución posterior va a ser realmente hacia fuera, así que se va a asignar probabilidad baja a cualquier observación en particular (por lo que el antes, se le han de varianza alta y así las probabilidades de que se propaguen). Del mismo modo, cuando se $\lambda$ es alta, se le tendrá de baja antes de la varianza y el modelo no se ajusta bien los datos.

Por lo tanto, el mejor ajuste se suele estar en algún valor intermedio que es lo $\lambda$ tenderá a (a menos que haya una buena razón para $\lambda$ tomar valores extremos).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X