26 votos

¿Cómo puede una distribución a priori incorrecta conducir a una distribución a posteriori correcta?

Sabemos que en el caso de una distribución a priori adecuada,

$P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)}$

$ \propto P(X \mid \theta)P(\theta)$ .

La justificación habitual de este paso es que la distribución marginal de $X$ , $P(X)$ es constante con respecto a $\theta$ y, por tanto, puede ignorarse al derivar la distribución posterior.

Sin embargo, en el caso de una distribución a priori inadecuada, ¿cómo se sabe que la distribución posterior existe realmente? Parece que falta algo en este argumento aparentemente circular. En otras palabras, si asumo que la distribución posterior existe, entiendo la mecánica de cómo derivar la distribución posterior, pero parece que me falta la justificación teórica de por qué existe.

P.D. También reconozco que hay casos en los que un anterior inadecuado conduce a un posterior inadecuado.

18voto

Por lo general, aceptamos los resultados a priori impropios $\pi(\theta)$ si $$ \frac{\pi(X \mid \theta) \pi(\theta)}{\pi(X)} $$ existe y es una distribución de probabilidad válida (es decir, se integra exactamente a 1 sobre el soporte). Esencialmente, esto se reduce a $\pi(X) = \int \pi(X \mid \theta) \pi(\theta) \,d\theta$ siendo finito. Si este es el caso, entonces llamamos a esta cantidad $\pi(\theta \mid X)$ y acepte como la distribución posterior que queremos. Sin embargo, es importante señalar que NO se trata de una distribución posterior, ni de una distribución de probabilidad condicional (estos dos términos son sinónimos en el contexto que nos ocupa).

Ahora, dije que acepte distribuciones 'posteriores' a partir de priores impropios dado lo anterior. La razón por la que se aceptan es porque la prior $\pi(\theta)$ nos seguirá dando "puntuaciones" relativas en el espacio de parámetros; es decir, la relación $\frac{\pi(\theta_1)}{\pi(\theta_2)}$ da sentido a nuestro análisis. En algunos casos, el significado que obtenemos de los a priori inadecuados puede no estar disponible en los a priori adecuados. Esta es una posible justificación para utilizarlos. Véase la respuesta de Sergio para un examen más exhaustivo de la motivación práctica de las priores impropias.

Cabe señalar que esta cantidad $\pi(\theta \mid X)$ también tiene propiedades teóricas deseables, Degroot & Schervish :

Los priors impropios no son distribuciones de probabilidad verdaderas, pero si pretendemos que lo son, calcularemos distribuciones posteriores que se aproximan al posteriors que habríamos obtenido usando priores conjugados adecuados con extremos de los hiperparámetros a priori.

11voto

bessman Puntos 2514

Hay una respuesta "teórica" y otra "pragmática".

Desde un punto de vista teórico, cuando un prior es impropio el posterior no existe (bueno, mira la respuesta de Matthew para una afirmación más sólida), pero puede ser aproximado por una forma límite.

Si los datos comprenden una muestra condicionalmente i.i.d. de la distribución Bernoulli con parámetro $\theta$ y $\theta$ tiene la distribución beta con parámetros $\alpha$ y $\beta$ la distribución posterior de $\theta$ es la distribución beta con parámetros $\alpha + s, \beta+n-s$ ( $n$ observaciones, $s$ éxitos) y su media es $(\alpha+s)/(\alpha+\beta+n)$ . Si utilizamos la distribución beta a priori impropia (e irreal) con hipoparámetros a priori $\alpha=\beta=0$ y pretender que $\pi(\theta)\propto\theta^{-1}(1-\theta)^{-1}$ obtenemos una posterior adecuada proporcional a $\theta^{s-1}(1-\theta)^{n-s-1}$ es decir, la f.d.p. de la distribución beta con parámetros $s$ y $n-s$ excepto por un factor constante. Esta es la forma límite de la posterior para una beta a priori con parámetros $\alpha\to 0$ y $\beta\to 0$ (Degroot & Schervish, Ejemplo 7.3.13).

En un modelo normal con media $\theta$ varianza conocida $\sigma^2$ y un $\mathcal{N}(\mu_0,\tau^2_0)$ distribución a priori para $\theta$ si la precisión previa, $1/\tau^2_0$ es pequeño en relación con la precisión de los datos, $n/\sigma^2$ entonces la distribución posterior es aproximadamente como si $\tau^2_0=\infty$ : $$p(\theta\mid x)\approx \mathcal{N}(\theta\mid\bar{x},\sigma^2/n)$$ es decir, la distribución posterior es aproximadamente la que resultaría de suponer $p(\theta)$ es proporcional a una constante para $\theta\in(-\infty,\infty)$ una distribución que no es estrictamente posible, pero la forma límite de la posterior como $\tau^2_0$ se acerca a $\infty$ existe ( Gelman et al. , p. 52).

Desde un punto de vista "pragmático", $p(x\mid\theta)p(\theta)=0$ cuando $p(x\mid\theta)=0$ lo que sea $p(\theta)$ es, por lo que si $p(x\mid\theta)\ne 0$ en $(a,b)$ entonces $\int_{-\infty}^{\infty}p(x\mid\theta)p(\theta)d\theta=\int_a^b p(x\mid\theta)p(\theta)d\theta$ . Los a priori inadecuados pueden ser para representar la local comportamiento de la distribución a priori en el región donde la probabilidad es apreciable, digamos $(a,b)$ . Suponiendo que con una aproximación a priori sigue formas como $f(x)=k, x\in(-\infty,\infty)$ o $f(x)=kx^{-1}, x\in(0,\infty)$ sólo sobre $(a,b)$ , que se reduce convenientemente a cero fuera nos aseguramos de que las priors utilizadas son las adecuadas ( Caja y Tiao , p. 21). Así pues, si la distribución a priori de $\theta$ es $\mathcal{U}(-\infty,\infty)$ pero $(a,b)$ está acotado, es como si $\theta\sim\mathcal{U}(a,b)$ , es decir $p(x\mid\theta)p(\theta)=p(x\mid\theta)k\propto p(x\mid\theta)$ . Para poner un ejemplo concreto, esto es lo que ocurre en Stan si no se especifica para un parámetro, se le asigna implícitamente una prioridad uniforme sobre su soporte y esto se maneja como una multiplicación de la probabilidad por una constante.

3voto

andynormancx Puntos 234

Sin embargo, en el caso de un prior inadecuado, ¿cómo se sabe que la distribución posterior existe realmente?

El posterior puede que tampoco sea el adecuado. Si la probabilidad a priori es incorrecta y la probabilidad es plana (porque no hay observaciones significativas), entonces la probabilidad a posteriori es igual a la probabilidad a priori y también es incorrecta.

Normalmente tienes algunas observaciones, y normalmente la probabilidad no es plana, por lo que la posterior es adecuada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X