12 votos

Los parámetros de máxima probabilidad se desvían de las distribuciones posteriores

Tengo una función de probabilidad $ \mathcal {L}(d | \theta )$ por la probabilidad de que mis datos $d$ dados algunos parámetros del modelo $ \theta \in \mathbf {R}^N$ que me gustaría estimar. Suponiendo que los parámetros tienen una prioridad plana, la probabilidad es proporcional a la probabilidad posterior. Utilizo un método MCMC para muestrear esta probabilidad.

Observando la cadena convergente resultante, encuentro que los parámetros de máxima probabilidad no son consistentes con las distribuciones posteriores. Por ejemplo, la distribución de probabilidad posterior marginada para uno de los parámetros podría ser $ \theta_0 \sim N( \mu =0, \sigma ^2=1)$ mientras que el valor de $ \theta_0 $ en el punto de máxima probabilidad es $ \theta_0 ^{ML} \approx 4$ que es esencialmente casi el valor máximo de $ \theta_0 $ atravesado por el muestreador MCMC.

Este es un ejemplo ilustrativo, no mis resultados reales. Las distribuciones reales son mucho más complicadas, pero algunos de los parámetros ML tienen valores p igualmente improbables en sus respectivas distribuciones posteriores. Obsérvese que algunos de mis parámetros están limitados (por ejemplo $0 \leq \theta_1 \leq 1$ ); dentro de los límites, los antecedentes son siempre uniformes.

Mis preguntas son:

  1. ¿Es tal desviación un problema per se ? Obviamente no espero que los parámetros ML coincidan exactamente con los máximos de cada una de sus distribuciones posteriores marginales, pero intuitivamente siento que tampoco deben encontrarse en la profundidad de las colas. ¿Esta desviación invalida automáticamente mis resultados?

  2. Tanto si esto es necesariamente problemático como si no, ¿podría ser sintomático de patologías específicas en alguna etapa del análisis de los datos? Por ejemplo, ¿es posible hacer alguna declaración general sobre si tal desviación podría ser inducida por una cadena mal convergente, un modelo incorrecto o límites excesivamente estrechos en los parámetros?

17voto

chahedous Puntos 43

Con antecedentes planos, el posterior es idéntico a la probabilidad hasta una constante. Así,

  1. El MLE (estimado con un optimizador) debe ser idéntico al MAP (valor máximo a posteriori = modo multivariado del posterior, estimado con MCMC). Si no se obtiene el mismo valor, se tiene un problema con el muestreador u optimizador.

  2. Para los modelos complejos, es muy común que los modos marginales sean diferentes del MAP. Esto ocurre, por ejemplo, si las correlaciones entre los parámetros son no lineales. Esto está perfectamente bien, pero los modos marginales por lo tanto no deben ser interpretados como los puntos de mayor densidad posterior, y no deben ser comparados con el MLE.

  3. En su caso concreto, sin embargo, sospecho que el posterior corre contra el límite anterior. En este caso, el posterior será fuertemente asimétrico, y no tiene sentido interpretarlo en términos de media, sd. No hay ningún problema de principio con esta situación, pero en la práctica a menudo insinúa una especificación errónea del modelo, o una mala elección de los anteriores.

16voto

Lev Puntos 2212

Algunas posibles explicaciones genéricas de esta discrepancia percibida, suponiendo, por supuesto, que no haya ningún problema con la definición de código o probabilidad o la implementación del MCMC o el número de iteraciones del MCMC o la convergencia del maximizador de la probabilidad (Gracias, Jacob Socolar ):

  1. en grandes dimensiones $N$ la parte posterior no se concentra en el máximo pero algo de distancia de orden $ \sqrt {N}$ de la modo, lo que significa que los mayores valores de la función de probabilidad encontrados por un muestreador de MCMC suelen estar bastante por debajo del valor de la probabilidad en su máximo. Por ejemplo, si la parte posterior es $ \theta | \mathbf x \sim\mathcal N_N(0,I_N)$ , $ \theta $ está al menos a una distancia $N-2 \sqrt {2N}$ del modo, $0$ .

  2. Mientras que el MAP y el MLE se confunden bajo un prior plano, el Las densidades marginales de los diferentes parámetros del modelo pueden tener modos (marginales) que están muy lejos de los correspondientes EML (es decir, los MAP).

  3. El MAP es una posición en el espacio de parámetros donde la densidad posterior es mayor pero esto no transmite ninguna indicación de peso o volumen posterior para los barrios del MAP. Una espiga muy delgada no tiene peso posterior. Esta es también la razón por la que la exploración del MCMC de un posterior puede enfrentar dificultades en la identificación del modo posterior.

  4. El hecho de que la mayoría de los parámetros estén limitados puede llevar a que algunos componentes del MAPA=MLE que ocurren en un límite.

Ver, por ejemplo, Druihlet y Marin (2007) para los argumentos sobre la la naturaleza no Bayesiana de estimadores MAP. Una es la dependencia de estos estimadores de la medida dominante, otra es la falta de invariabilidad en la reparameterización (a diferencia del MLE).

Como ejemplo del punto 1 anterior, aquí está un corto código R

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

que imita una secuencia aleatoria de caminata de Metrópolis-Hastings en la dimensión N=100. El valor de la logoposicion en el MAP es -91.89, pero las probabilidades visitadas nunca se acercan:

> range(lik)
[1] -183.9515 -126.6924

lo que se explica por el hecho de que la secuencia nunca se acerca a la observación:

> range(dis)
[1]  69.59714 184.11525

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X