La proporcionalidad se utiliza para simplificar el análisis
El análisis bayesiano se realiza generalmente a través de un una declaración aún más simple del teorema de Bayes, en el que se trabaja sólo en términos de proporcionalidad con respecto al parámetro de interés. Para un modelo IID estándar con densidad de muestreo $f(X|\theta)$ podemos expresar esto como:
$$p(\theta|\mathbf{x}) \propto L_\mathbf{x}(\theta) \cdot p(\theta) \quad \quad \quad \quad L_\mathbf{x}(\theta) \propto \prod_{i=1}^n f(x_i|\theta).$$
Este enunciado de la actualización bayesiana funciona en términos de proporcionalidad con respecto al parámetro $\theta$ . Utiliza dos simplificaciones de proporcionalidad: una en el uso de la función de verosimilitud (proporcional a la densidad de muestreo) y otra en la posterior (proporcional al producto de la verosimilitud y la anterior). Dado que la posterior es una función de densidad (en el caso continuo), la regla de normalización establece la constante multiplicativa necesaria para obtener una densidad válida (es decir, para que se integre en uno).
Este método de uso de la proporcionalidad tiene la ventaja de permitirnos ignorar los elementos multiplicativos de las funciones que no dependen del parámetro $\theta$ . Esto tiende a simplificar el problema al permitirnos barrer las partes innecesarias de las matemáticas, y obtener declaraciones más simples del mecanismo de actualización. Esto no es un requisito matemático (ya que la regla de Bayes también funciona en su forma no proporcional), pero hace que las cosas más sencillo para nuestros pequeños cerebros animales.
Un ejemplo aplicado: Consideremos un modelo IID con datos observados $X_1, ..., X_n \sim \text{IID N}(\theta, 1)$ . Para facilitar nuestro análisis, definimos las estadísticas $\bar{x} = \tfrac{1}{n} \sum_{i=1}^n x_i$ y $\bar{\bar{x}} = \tfrac{1}{n} \sum_{i=1}^n x_i^2$ que son los dos primeros momentos de la muestra. Para este modelo tenemos la densidad de muestreo:
$$\begin{equation} \begin{aligned} f(\mathbf{x}|\theta) = \prod_{i=1}^n f(x_i|\theta) &= \prod_{i=1}^n \text{N}(x_i|\theta,1) \\[6pt] &= \prod_{i=1}^n \frac{1}{\sqrt{2 \pi}} \exp \Big( -\frac{1}{2} (x_i-\theta)^2 \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{1}{2} \sum_{i=1}^n (x_i-\theta)^2 \Big). \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta + \bar{\bar{x}} ) \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n \bar{\bar{x}}}{2} \Big) \cdot \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \\[6pt] \end{aligned} \end{equation}$$
Ahora, podemos trabajar directamente con esta densidad de muestreo si queremos. Pero fíjate en que los dos primeros términos de esta densidad son constantes multiplicativas que no dependen de $\theta$ . Es molesto tener que estar pendiente de estos términos, así que vamos a deshacernos de ellos, para tener la función de probabilidad:
$$L_\mathbf{x}(\theta) = \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big).$$
Esto simplifica un poco las cosas, ya que no tenemos que llevar la cuenta de un término adicional. Ahora, podríamos aplicar la regla de Bayes utilizando su versión completa de la ecuación, incluyendo el denominador integral. Pero, de nuevo, esto nos obliga a seguir la pista de otra molesta constante multiplicativa que no depende de $\theta$ (más molesto porque hay que resolver una integral para obtenerla). Así que vamos a aplicar la regla de Bayes en su forma proporcional. Usando la previa conjugada $\theta \sim \text{N}(0,\lambda_0)$ con algunos conocido parámetro de precisión $\lambda_0>0$ obtenemos el siguiente resultado (por completando el cuadrado ):
$$\begin{equation} \begin{aligned} p(\theta|\mathbf{x}) &\propto L_\mathbf{x}(\theta) \cdot p(\theta) \\[10pt] &= \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \text{N}(\theta|0,\lambda_0) \\[6pt] &\propto \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \exp \Big( -\frac{\lambda_0}{2} \theta^2 \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( n\theta^2 - 2n\bar{x} \theta + \lambda_0 \theta^2 ) \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( (n+\lambda_0) \theta^2 - 2n\bar{x} \theta ) \Big) \\[6pt] &= \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta^2 - 2 \frac{n\bar{x}}{n+\lambda_0} \theta \Big) \Big) \\[6pt] &\propto \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta - \frac{n}{n+\lambda_0} \cdot \bar{x} \Big)^2 \Big) \\[6pt] &\propto \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big). \\[6pt] \end{aligned} \end{equation}$$
Así, a partir de este trabajo podemos ver que la distribución posterior es proporcional a una densidad normal. Como la posterior debe sea una densidad, esto implica que la posterior es esa densidad normal:
$$p(\theta|\mathbf{x}) = \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big).$$
Por lo tanto, vemos que a posteriori el parámetro $\theta$ se distribuye normalmente con una media y una varianza posteriores dadas por:
$$\mathbb{E}(\theta|\mathbf{x}) = \frac{n}{n+\lambda_0} \cdot \bar{x} \quad \quad \quad \quad \mathbb{V}(\theta|\mathbf{x}) = \frac{1}{n+\lambda_0}.$$
Ahora, la distribución posterior que hemos derivado tiene una constante de integración por delante (que podemos encontrar fácilmente buscando la forma de la distribución normal ). Pero fíjate en que no hemos tenido que preocuparnos por esta constante multiplicativa: todo nuestro trabajo eliminaba (o introducía) constantes multiplicativas siempre que esto simplificara las matemáticas. El mismo resultado puede obtenerse teniendo en cuenta las constantes multiplicativas, pero es mucho más complicado.
2 votos
No hay ninguna diferencia. La probabilidad es la distribución condicional $f(X | \theta)$ bueno, es proporcional, que es lo único que importa.
2 votos
Parámetro previo $\Theta$ tiene densidad $p_\Theta(\theta)$ . si la realización de $\Theta$ tiene valor $\theta$ mientras que $x$ es el valor observado de una variable aleatoria $X$ entonces el valor de la función de probabilidad $L(\theta\mid x)$ es precisamente $f(x\mid \theta)$ el valor de la densidad condicional $f_{X\mid\Theta}(x\mid\Theta=\theta)$ de $X$ . La diferencia es que $$\int_{-\infty}^{\infty}f_{X\mid\Theta}(x\mid\Theta=\theta)dx=1$$ para todo realizaciones de $\Theta$ . Sin embargo, en función de $\theta$ (y fija $x$ ), $L(\theta\mid x)$ es no una densidad: $$\int L(\theta\mid x)d\theta\neq 1$$