28 votos

Posterior muy diferente a la anterior y la probabilidad

Si la anterior y la probabilidad son muy diferentes el uno del otro, entonces, a veces, se produce una situación donde la parte posterior es similar a la de ninguno de ellos. Véase, por ejemplo, esta imagen, que se utiliza distribuciones normales.

Posterior Behaviour

Aunque esto es matemáticamente correcto, no parece que estén de acuerdo con mi intuición-si los datos no coinciden con mis creencias o los datos, yo esperaría ni rango que va bien y esperar un plano posterior sobre la gama entera o tal vez una distribución bimodal en torno a la previa y la probabilidad (no estoy seguro de que tiene más sentido lógico). Ciertamente, no esperar una estrecha posterior en torno a un rango que coincide con ninguno de mis creencias anteriores o de los datos. Entiendo que en la medida que se obtienen más datos, la parte posterior se moverá hacia la probabilidad, pero en esta situación parece contra-intuitivo.

Mi pregunta es: ¿cómo es mi entendimiento de esta situación defectuosa (o es defectuoso). Es la parte posterior de la `correcta' de la función de esta situación. Y si no, ¿de qué otra manera podría ser modelados?

La integridad del bien, el estado es dado como $\mathcal{N}(\mu=1.5, \sigma=0.4)$ y la probabilidad como $\mathcal{N}(\mu=6.1, \sigma=0.4)$.

EDITAR: Viendo algunas de las respuestas dadas, me siento como que no he explicado la situación muy bien. Mi punto fue el análisis Bayesiano parece producir un no-intuitiva resultado dado los supuestos en el modelo. Mi esperanza era que la parte posterior sería de alguna manera, `cuenta', tal vez por las malas decisiones de modelado, que cuando el pensamiento acerca de es definitivamente no es el caso. Voy a ampliar sobre esto en mi respuesta.

8voto

jaradniemi Puntos 1535

Si esta situación puede surgir y es una característica de sus hipótesis del modelado específicamente normalidad en la previa y el modelo de muestreo (probabilidad). Si en lugar de otro habían elegido una distribución de Cauchy para su previo, posterior sería muy diferente.

prior = function(x) dcauchy(x, 1.5, 0.4)
like = function(x) dnorm(x,6.1,.4)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, 0, 8, col="red", axes=F, frame=T)
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

Cauchy prior, normal sampling model

6voto

chahedous Puntos 43

Estoy un poco en desacuerdo con las respuestas dadas hasta ahora - no es nada extraño acerca de esta situación. La probabilidad es asintóticamente normal de todos modos, y previa normal no es raro en absoluto. Si pones los dos juntos, con el hecho de que antes y la probabilidad de no dar la misma respuesta, tenemos la situación que estamos hablando aquí. Me ha representado que la de abajo con el código jaradniemi.

Podemos mencionar en 1 que la conclusión de esta observación sería que un modelo es estructuralmente mal b) mal c) antes de que está mal. Pero algo está mal seguro, y también ver si te gustaría hacer algunos posterior-predictivo de los cheques, que debe hacer de todos modos.

1 Hartig, F.; Dyke, J.; Hickler, T.; Higgins, S. I.; O'Hara, R. B.; Scheiter, S. & Huth, A. (2012) la Conexión de la dinámica de la vegetación de los modelos de datos - una perspectiva inversa. J. Biogeogr., 39, 2240-2252. http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2699.2012.02745.x/abstract

prior = function(x) dnorm(x,1,.3)
like = function(x) dnorm(x,-1,.3)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, -2, 2, col="red", axes=F, frame=T, ylim = c(0,2))
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

enter image description here

2voto

jswanson Puntos 2481

Después de pensar en esto por un tiempo, mi conclusión es que con la mala modelado supuestos, la parte posterior puede ser un resultado que concuerda con ninguno antes las creencias o de la probabilidad. De este modo, el resultado natural es el de la parte posterior del es que no, en general, el final del análisis. Si es el caso que la parte posterior debe ser más o menos se ajusten a los datos o que debe ser difusa entre el estado de la y la probabilidad (en este caso), entonces esto tendría que ser revisado después de el hecho de que, probablemente, con una posterior predictivo de verificación o algo similar. A incorporar esto en el modelo, parece requerir la capacidad de poner las probabilidades en probabilístico declaraciones, que creo que no es posible.

0voto

Pat Puntos 1698

Creo que esta es realmente una pregunta muy interesante. Luego de haber dormido en ella, creo que tengo una puñalada en una respuesta. La cuestión clave es la siguiente:

  • Has tratado la probabilidad como una gaussiana pdf. Pero no es una distribución de probabilidad - es una posibilidad! Lo que es más, usted no ha etiquetado su eje claramente. Estas cosas combinadas han confundido todo lo que sigue.

Digamos que usted está inferir la media de una distribución normal, $\mu$. Es una de las dimensiones de la parcela, por lo que asumiré $\sigma$ es conocido. En ese caso, antes de su distribución debe ser $P(\mu|\mu', \sigma')$ donde $\mu'$ $\sigma'$ (fija) hyperparameters el control previo de la posición y la forma; su función de probabilidad es $P(X|\mu, \sigma)$ donde $X$ es tu datos observados; y su posterior es $P(\mu|X, \sigma, \mu', \sigma')$. Dado que, el único eje horizontal que tiene sentido para mí en este diagrama es la que está conspirando $\mu$.

Pero si el eje horizontal muestra los valores de $\mu$, ¿por qué la probabilidad de $P(X|\mu)$ tiene la misma anchura y altura que la anterior? Cuando se puede romper hacia abajo que, en realidad, de una realidad extraña situación. Pensar acerca de la forma de la previa y la posibilidad de:

$$ P(\mu\mu', \sigma') = exp(-\frac{(\mu-\mu')^2}{2 \sigma'^2})\frac{1}{\sqrt{2 \pi \sigma'^2}} $$

$$ P(X|\mu\sigma) = \prod_{i=1}^N exp(-\frac{(x_i-\mu)^2}{2 \sigma^2})\frac{1}{\sqrt{2 \pi \sigma^2}} $$

La única manera que puedo ver que estas pueden tener el mismo ancho es si $\sigma'^2 = \sigma^2/N$. En otras palabras, la previa es muy informativo, ya que su variación va a ser mucho menor que el $\sigma^2$ para cualquier valor razonable de $N$. Es, literalmente, tan informativo como todo el conjunto de datos observados $X$!

Así, el estado y la probabilidad son igualmente informativo. ¿Por qué no el posterior bimodal? Esto es debido a sus supuestos utilizados en la modelización. Has supone implícitamente una distribución normal en la forma en que este se configura (previa normal, normal de probabilidad), y que limita la parte posterior para dar una respuesta unimodal. Eso es sólo una propiedad de distribuciones normales, que tienen un efecto en el problema mediante el uso de ellos. Un modelo diferente, no necesariamente han hecho esto. Tengo la sensación (a pesar de la falta de una prueba ahora mismo) que una distribución de cauchy puede tener multimodal de probabilidad, y por lo tanto una multimodal posterior.

Así, tenemos que ser unimodal, y el estado es tan informativo como de la probabilidad. Bajo estas limitaciones, la más sensata, la estimación está empezando a sonar como un punto directamente entre la probabilidad y antes, como nosotros no hay una manera de saber en qué creer. Pero, ¿por qué la posterior tensarse más?

Creo que la confusión viene del hecho de que en este modelo, $\sigma$ se supone conocido. Se lo desconocido, y tuvimos dos dimensiones de la distribución de más de $\mu$ $\sigma$ la observación de los datos lejos de la anterior, podría hacer que un alto valor de $\sigma$ más probable, y así aumentar la varianza de la distribución posterior de la media (como estos dos están relacionados). Pero no estamos en esa situación. $\sigma$ es tratado como se conoce aquí. Un ejemplo de agregar más datos sólo puede hacernos más confianza en nuestra predicción de la posición de $\mu$, y, por tanto, la parte posterior se hace más estrecho.

(Una manera de visualizar esto podría imaginar estimar la media de una gaussiana, con conocidos de la varianza, utilizando sólo dos puntos de la muestra. Si los dos puntos de muestreo están separados por mucho más que el ancho de la gaussiana (es decir, están en las colas), entonces eso es una fuerte evidencia de la media en realidad se encuentra entre ellos. El desplazamiento de la media de poco a partir de esta posición hará que una exponencial de la caída en la probabilidad de que una muestra o de otro.)

En resumen, la situación que describe, es un poco extraño, y utilizando el modelo que hemos incluido algunos de los supuestos (por ejemplo, unimodality) en el problema que usted no se dio cuenta que había. Pero de lo contrario, la conclusión es correcta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X