He estado luchando con esto por un tiempo. Un típico problema de optimización puede ser visto como la optimización de cierta función de coste, que es una combinación de un plazo de datos y un término de penalización que anima a determinadas soluciones. Y normalmente hay una ponderación plazo entre los dos.
En el bayesiano, esto puede ser interpretado con la habitual antes y la probabilidad de la función. En el actual problema que estoy tratando de entender, que modelo de la previa como una normal multivariante con cero significa y la precisión de la matriz igual a $\lambda \Lambda$ donde $\lambda$ puede ser pensado de esta regularización de la ponderación y la $\Lambda$ es que algunos adecuadas precisión de la matriz de estructura que codifica las posibles soluciones de alguna manera. En mi caso en particular, la precisión de la matriz codifica algunos suavidad restricciones en los parámetros estimados es decir, el antes de anima lisa de soluciones. En este caso, $\lambda$ denota la fuerza de esta suavidad término de penalización. Un $\lambda$ cero significaría que el ML estimar que sólo nos optimizar la función de coste es decir, la probabilidad de la función. Esto es debido a que como $\lambda$ disminuye, la precisión disminuye y, por tanto, la varianza de cada uno de los parámetros en la previa aumenta. Así, los valores bajos de $\lambda$ se moverá hacia la unregularized solución.
Ahora, una típica cosa que he visto es que hay algún tipo de un esquema iterativo, donde primero vamos a empezar con una aproximación a $\lambda$ y calcular la distribución a través de otros parámetros de interés mediante algún esquema aproximado como variacional de Bayes o Expectativa de Propagación y, a continuación, utilizar esta aproximación para actualizar nuestra estimación de $\lambda$ (suponiendo que los priores $\lambda$ son de la forma conjugada, generalmente se hace con una distribución Gamma que también mantiene positivo).
Ahora, mi pregunta es que si puedo empezar con un valor muy bajo para $\lambda$ mi aproximación, a continuación, el antes de que el término casi no tiene ningún efecto. Sería esto no empuje la estimación de la distribución hacia las soluciones que son menos plausible es decir, básicamente, dar de alta de probabilidades a unregularized soluciones? Estoy teniendo un montón de problemas para la comprensión de cómo esta actualización de esquema pueden encontrar buenos valores de $\lambda$ es decir, hallar el valor de $\lambda$ que es óptima con respecto a los datos observados. Así que, básicamente lo que tengo problemas para entender que es lo que está deteniendo la inferencia a la unidad de este valor de $\lambda$ a cero o cerca de cero a preferir la unregularized estimación de máxima verosimilitud? Yo realmente no veo cómo este valor de $\lambda$ está siendo impulsado por los datos o la evidencia plazo.