El enfoque Bayesiano para su problema sería considerar la probabilidad posterior sobre los modelos de M∈{Normal,Log-normal} dado un conjunto de puntos de datos X={x1,...,xN},
P(M∣X)∝P(X∣M)P(M).
La parte difícil es conseguir que los marginales de la probabilidad,
P(X∣M)=∫P(X∣θ,M)P(θ∣M)dθ.
Para ciertas opciones de p(θ∣M), la probabilidad marginal de una Gaussiana puede ser obtenida en forma cerrada. Ya diciendo que X es de registro-normalmente distribuida es lo mismo que decir que Y={logx1,...,logxN } se distribuye normalmente, usted debería ser capaz de utilizar el mismo marginales de la probabilidad de la log-normal como modelo para el modelo de Gauss, mediante la aplicación a Y en lugar de X. Sólo recuerde tomar en cuenta el Jacobiano de la transformación,
P(X∣M=Log-Normal)=P(Y∣M=Normal)⋅∏i|1xi|.
Para este método se necesita elegir una distribución a través de los parámetros de P(θ∣M) – aquí, presumiblemente P(σ2,μ∣M=Normal) – y las probabilidades previas P(M).
Ejemplo:
Para P(μ,σ2∣M=Normal) I elegir una normal inverso-distribución gamma con parámetros a m0=0,v0=20,a0=1,b0=100.
![enter image description here]()
Según Murphy (2007) (Ecuación 203), los marginales de la probabilidad de la distribución normal está dado por
P(X∣M=Normal)=|vN|12|v0|12ba00baNnΓ(aN)Γ(a0)1πN/22N
donde aN,bN, vN son los parámetros de la parte posterior de la P(μ,σ2∣X,M=Normal) (Ecuaciones 196 a 200),
vN=1/(v−10+N),mN=(v−10m0+∑ixi)/vN,aN=a0+N2,bN=b0+12(v−10m20−v−1Nm2N+∑ix2i).
Yo uso el mismo hyperparameters para la log-normal de distribución,
P(X∣M=Log-normal)=P({logx1,...,logxN}∣M=Normal)⋅∏i|1xi|.
Para una probabilidad anterior de la log-normal de 0.1, P(M=Log-normal)=0.1, y los datos extraídos de la siguiente log-normal de distribución,
![enter image description here]()
la parte posterior se comporta como esta:
![enter image description here]()
La línea sólida muestra la mediana de probabilidad posterior para los diferentes sorteos de N puntos de datos. Tenga en cuenta que por muy poco no los datos, las creencias son cerca de las creencias anteriores. De alrededor de 250 puntos de datos, el algoritmo es casi siempre la certeza de que los datos fueron extraídos de una log-normal de distribución.
Cuando la aplicación de las ecuaciones, sería una buena idea trabajar con el registro de densidades en lugar de densidades. Pero de lo contrario, debería ser bastante sencillo. Aquí está el código que he utilizado para generar las parcelas:
https://gist.github.com/lucastheis/6094631