9 votos

Gradiente de Gauss log-verosimilitud

Estoy tratando de encontrar el MAPA de la estimación de un modelo de gradiente de la pendiente. A mi antes se multivariante Gaussiano con un conocido matriz de covarianza.

En un nivel conceptual, creo que sé cómo hacerlo, pero yo estaba esperando un poco de ayuda con los detalles. En particular, si hay una forma más fácil de abordar el problema, entonces, que sería especialmente útil.

Esto es lo que yo creo que necesito hacer:

  • Para cada dimensión, encontrar el condicional de distribución, dada mi posición actual en las otras dimensiones.
  • Esto me da un local univariante de Gauss en cada dimensión, con la correcta de la media y la desviación estándar.
  • Creo que la pendiente debe ser sólo un vector de derivados para cada una de estas distribuciones univariantes.

Mi pregunta tiene dos partes:

  1. Es este el mejor enfoque para tomar, o hay una manera más fácil?
  2. Suponiendo que tengo que ir a esta ruta, ¿cuál es la mejor manera de ir sobre la búsqueda de estas distribuciones condicionales?

9voto

karatchov Puntos 230

¿Qué acerca de la optimización?

Vamos a ver si lo entiendo correctamente. Usted tiene un modelo de $p(y|x, \theta)$ acondicionado en algunos de observación de la $x$ y un conjunto de parámetros de $\theta$ y una antes de la $p(\theta)$ conduce a un conjunto probabilidad de $\mathcal{L} = p(y|x, \theta)p(\theta)$. Los parámetros son distribuidas de acuerdo a un conocido multivariante normal, es decir,$\theta \sim \mathcal{N}(\mu, \Sigma)$. Usted quiere encontrar el MAPA de la solución a este problema, es decir, $$ \text{argmax}_{\theta} \mathcal{L}. $$ Un caso especial de este problema se ha estudiado bien en las redes neuronales de la comunidad, conocida como el peso de la caries. En ese caso, $\mu=\mathbf{0}$$\Sigma = \mathbf{I}\sigma^2$.

Como ya se ha señalado, el truco está en que $\text{argmax}_{\theta} \mathcal{L} = \text{argmax}_{\theta} \log \mathcal{L}$. Cuando usted toma el logaritmo de la densidad Gaussiana, muchos feo términos (exponencial) desaparecen y usted va a terminar con algo como $\log p(\theta) = {1 \over 2}(\theta - \mu)^T\Sigma^{-1}(\theta - \mu) + \text{const}$. Si usted diferenciar que, Sam Roweis' matriz de identidades va a venir bien y vamos a llegar a

$$ {1 \over 2}{\partial (\theta \mu)^T\Sigma^{-1}(\theta \mu) \over \partial \theta} = \Sigma^{-1}(\theta \mu). $$

(Por favor, compruebe, esto se hizo con rapidez y en mi cabeza). Junto con los derivados de su modelo, puede usar off-the-shelf optimizadores para llegar a una solución de MAPAS.

Actualización: Incorporado comentario por David J. Harris. Las fórmulas deben ser correctos ahora.

0voto

Silvercode Puntos 438

Si la probabilidad no es Gaussiana no es posible decir si hay resultados analíticos. También, la segunda viñeta es entonces incorrecta en general. Desde Gaussiano previo y general de la probabilidad no es condicional distribución gausiana en las componentes del vector.

Una forma de obtener el MAPA sería hacer un completo análisis Bayesiano, por ejemplo, el uso de MCMC y el uso de las muestras de la parte posterior para la estimación de la misma. [En cuyo caso tendrías mejor información disponible que sólo usando el MAPA.] De interés - ¿por qué no ir por este camino de todos modos?

Otro enfoque podría ser la de hacer (yo no he visto este hecho general, así que por favor alguien me corrija si es una locura):

$ p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)}$

$ l(\theta|x) = l(x|\theta) + l(\theta) - l(x) $

$ \frac{dl(\theta|x)}{d\theta} = \frac{dl(x|\theta)}{d\theta} + \frac{dl(\theta)}{d\theta} = 0$

Luego resuelve $\theta$ (probablemente numéricamente).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X