¡Muy buena pregunta! En efecto, tendría sentido que una "buena" distribución a priori diera una probabilidad positiva o un valor de densidad positivo al parámetro "verdadero" $\theta_0$ pero desde una perspectiva puramente decisoria no tiene por qué ser así. Un simple contraejemplo de esta "intuición" que $$\pi(\theta_0)>0$$ debería ser necesario, cuando $\pi(\cdot)$ es la densidad previa y $\theta_0$ es el valor "verdadero" del parámetro, es el brillante resultado de minimaxidad de Casella y Strawderman (1981): al estimar una media normal $\mu$ basado en una única observación $x\sim{\cal N}(\mu,1)$ con la restricción adicional de que $|\mu|<\rho$ , si $\rho$ es lo suficientemente pequeño, $\rho\le 1.0567$ En concreto, el estimador minimax corresponde a una prioridad uniforme (menos favorable) sobre $\{-\rho,\rho\}$ , lo que significa que $\pi$ da el mismo peso a $-\rho$ y $\rho$ (y ninguno a cualquier otro valor de la media $\mu$ ) $$\pi(\theta)=\frac{1}{2}\delta_{-\rho}(\theta)+ \frac{1}{2}\delta_{\rho}(\theta)$$ Cuando $\rho$ aumenta la prioridad menos favorable ve crecer su apoyo, pero sigue siendo un conjunto finito de valores posibles. Sin embargo la expectativa posterior, $\mathbb{E}[\mu|x]$ puede tomar cualquier valor en $(-\rho,\rho)$ .
El núcleo de la discusión (ver comentarios) puede ser que, si el Bayes se limitara a ser un punto en el soporte de $\pi(\cdot)$ sus propiedades serían muy diferentes.
Del mismo modo, al considerar los estimadores admisibles, los estimadores de Bayes asociados a una prioridad adecuada en un conjunto compacto suelen ser admisibles, aunque tengan un soporte restringido.
En ambos casos, la noción frecuentista (minimaxidad o admisibilidad) se define sobre el rango posible de parámetros y no sobre el valor "verdadero" del parámetro (lo que aporta una respuesta a la pregunta 4). $$\int_\Theta L(\theta,\delta) \pi(\theta|x)\text{d}\theta$$ o en el riesgo de Bayes $$\int_{\cal X}\int_\Theta L(\theta,\delta) \pi(\theta)f(x|\theta)\text{d}\theta\text{d}x$$ no implica el valor real $\theta_0$ .
Además, como se ha señalado en el ejemplo anterior, cuando el estimador de Bayes se define mediante una expresión formal como la media posterior $$\hat{\theta}^\pi(x)=\int_\Theta \theta\pi(\theta|x)\text{d}\theta$$ para la cuadrática (o $L_2$ ), este estimador puede tomar valores fuera del soporte de $\pi$ en los casos en que este soporte no es convexo.
A modo de apunte, al leer
para que lo verdadero haya generado los datos (es decir, que "exista"), debe ser una variante posible bajo , por ejemplo, tener una probabilidad no nula, una densidad no nula densidad
Lo considero una tergiversación del significado de un prior. Se supone que la distribución a priori no representa un mecanismo físico (o real) que vio el valor de un parámetro $\theta_0$ generado a partir de $\pi$ seguido de una observación $x$ generado a partir de $f(x|\theta_0)$ . La prioridad es una medida de referencia en el espacio de los parámetros que incorpora información previa y creencias subjetivas sobre el parámetro y que no es en absoluto única. Un análisis bayesiano es siempre relativo a la prioridad elegida para realizar este análisis bayesiano. Por lo tanto, no hay una necesidad absoluta de que el parámetro verdadero pertenezca al soporte de $\pi$ . Obviamente, cuando este soporte es un conjunto compacto conectado, ${\mathscr A}$ cualquier valor del parámetro fuera del conjunto ${\mathscr A}$ no puede ser estimada consistentemente por la media posterior $\hat{\theta}^\pi$ pero esto no impide que el estimador sea admisible.