Sé que los priores no necesita ser adecuada y que la probabilidad de la función de no integrar a 1. Pero, ¿la posterior necesidad de ser una distribución adecuada? ¿Cuáles son las implicaciones si se está o no está?
Respuestas
¿Demasiados anuncios?La posterior distribución no necesita ser adecuada, incluso si la anterior es correcta. Por ejemplo, supongamos $v$ tiene una Gamma antes con forma de 0,25 (que es correcto), y el modelo de nuestro datum $x$ como extraída de una distribución Gaussiana con media cero y varianza $v$. Supongamos $x$ se observa a ser cero. Entonces la probabilidad de a $p(x|v)$ es proporcional a $v^{-0.5}$, lo que hace que la distribución posterior para $v$ inadecuado, ya que es proporcional a $v^{-1.25} e^{-v}$. Este problema surge debido a la extraña naturaleza de las variables continuas.
(Es un poco de una sorpresa para leer las respuestas anteriores, que se centran en el potencial de la impropiedad de la parte posterior cuando el anterior es correcto, ya que, como lo que puedo decir, la pregunta es si o no la parte posterior tiene que ser la correcta (es decir, integrable a uno) ser adecuada (es decir, aceptable para la inferencia Bayesiana) posterior).
En la estadística Bayesiana, la distribución posterior tiene que ser una distribución de probabilidad, a partir de la cual se puede derivar momentos como la parte posterior de la media de $\mathbb{E}^\pi[h(\theta)|x]$ y la probabilidad de declaraciones como la cobertura de un creíble región, $\mathbb{P}(\pi(\theta|x)>\kappa|x)$. Si $$\int f(x|\theta)\,\pi(\theta)\,\text{d}\theta = +\infty\,,\qquad (1)$$ the posterior $\pi(\theta|x)$ no puede ser normalizado en una densidad de probabilidad y la inferencia Bayesiana, simplemente no puede ser llevado a cabo. La parte posterior simplemente no existe en estos casos.
En realidad, (1) deben tener para todos los $x$'s en el espacio muestral y no sólo para la observó $x$ , de lo contrario, la selección de la anterior dependerá de los datos. Esto significa que los priores como Haldane antes, $\pi(p)\propto \{1/p(1-p)\}$, en la probabilidad de $p$ de un Binomio o una Binomial Negativo de la variable $X$ no se puede utilizar, ya que la posterior no está definida para $x=0$.
Yo sé de una excepción cuando se puede considerar "inapropiado posteriores": se encuentra en "El Arte de la Aumentación de Datos" por David van Dyk y Xiao-Li Meng. La incorrecta medida es a través de un llamado a trabajar parámetro $\alpha$ de manera tal que la observación es producido por la marginal de una aumentada de distribución $$f(x|\theta)=\int_{T(x^\text{aug})=x} f(x^\text{aug}|\theta,\alpha)\,\text{d}x^\text{aug}$$ y van Dyk y Meng poner un inadecuado antes de la $p(\alpha)$ en este parámetro $\alpha$ a fin de acelerar la simulación de $\pi(\theta|x)$ (que queda bien definido como una densidad de probabilidad) por MCMC.
En otra perspectiva, algo relacionado con la respuesta por eretmochelys, es decir, una perspectiva Bayesiana de la teoría de la decisión, en un escenario donde (1) se produce aún podría ser aceptable si se llevó a decisiones óptimas. Es decir, si $L(\delta,\theta)\ge 0$ es una pérdida de la función de evaluar el impacto del uso de la toma de $\delta$, un Bayesiana de la decisión óptima en virtud de la antes de la $\pi$ está dado por $$\delta^\star(x)=\arg\min_\delta \int L(\delta,\theta) f(x|\theta)\,\pi(\theta)\,\text{d}\theta$$ and all that matters is that this integral is not everywhere (in $\delta$) infinite. Whether or not (1) holds is secondary for the derivation of $\delta^\estrella(x)$, aunque las propiedades como la admisibilidad sólo se garantiza cuando (1) se mantiene.
La definición del conjunto $$ \text{Falso de Datos} = \left\{ x:\int f(x\mid \theta)\,\pi(\theta)\,d\theta = \infty \right\} \, , $$ tenemos $$ \mathrm{Pr}\left(X\in\text{Falso de Datos}\right) = \int_\text{Falso de Datos} \int f(x\mid \theta)\,\pi(\theta)\,d\theta\,dx = \int_\text{Falso de Datos} \infty\,dx \, . $$ La última integral será igual a $\infty$ si la medida de Lebesgue de $\text{Bogus Data}$ es positivo. Pero esto es imposible, porque esta integral da una probabilidad (un número real entre el$0$$1$). Por lo tanto, se deduce que la medida de Lebesgue de $\text{Bogus Data}$ es igual a $0$, y, por supuesto, se desprende también que el $\mathrm{Pr}\left(X\in\text{Bogus Data}\right)=0$.
En palabras: la previa de predicción de probabilidad de los valores de la muestra que hacen que la posterior inadecuado es igual a cero.
Moraleja de la historia: cuidado de null establece, pueden morder, por muy improbable que sea.
P. S. Como se ha señalado por el Prof. Robert en los comentarios, este razonamiento se rompe si la anterior es incorrecto.
Cualquier "distribución" que deben sumar (o integrar) a 1. No puedo pensar en un par de ejemplos en las que uno puede trabajar con las naciones unidas normalizada de las distribuciones, pero me siento incómodo nunca llamar a cualquier cosa que margina a nada, pero de 1 "distribución".
Dado que usted ha mencionado Bayesiano posterior, apuesto a que tu pregunta puede venir de un problema de clasificación de la búsqueda de la óptima estimación de $x$ dado alguna característica vectorial $d$
$$ \begin{align} \hat{x} &= \arg \max_x P_{X|D}(x|d) \\ &= \arg \max_x \frac{P_{D|X}(d|x) P_X(x)}{P_D(d)} \\ &= \arg \max_x {P_{D|X}(d|x) P_X(x)} \end{align} $$
donde la última igualdad proviene del hecho de que $P_D$ no dependen $x$. A continuación, podemos elegir nuestra $\hat{x}$ basado exclusivamente en el valor de $P_{D|X}(d|x) P_X(x)$ que es proporcional a nuestro Bayesiano posterior, pero no hay que confundir que para una probabilidad!
Inadecuada distribución posterior sólo surge cuando usted está teniendo una inadecuada antes de la distribución. La implicación de esto es que el asintótica resultados no se sostienen. Como un ejemplo, considere la posibilidad de un binomio de datos que consta de $n$ de éxito y 0 fallos, si el uso de $Beta(0,0)$ como antes de la distribución, la posterior será incorrecta. En esta situación, lo mejor es pensar en una adecuada distribución previa para sustituir indebido que antes.