19 votos

Probabilidad frente a distribución condicional para el análisis bayesiano

Podemos escribir el teorema de Bayes como

$$p(\theta|x) = \frac{f(X|\theta)p(\theta)}{\int_{\theta} f(X|\theta)p(\theta)d\theta}$$

donde $p(\theta|x)$ es la posterior, $f(X|\theta)$ es la distribución condicional, y $p(\theta)$ es la prioridad.

o

$$p(\theta|x) = \frac{L(\theta|x)p(\theta)}{\int_{\theta} L(\theta|x)p(\theta)d\theta}$$

donde $p(\theta|x)$ es la posterior, $L(\theta|x)$ es la función de probabilidad, y $p(\theta)$ es la prioridad.

Mi pregunta es

  1. ¿Por qué el análisis bayesiano se realiza utilizando la función de verosimilitud y no la distribución condicional?
  2. ¿Puede decir en palabras cuál es la diferencia entre la probabilidad y la distribución condicional? Sé que la probabilidad no es una distribución de probabilidad y $L(\theta|x) \propto f(X|\theta)$ .

2 votos

No hay ninguna diferencia. La probabilidad es la distribución condicional $f(X | \theta)$ bueno, es proporcional, que es lo único que importa.

2 votos

Parámetro previo $\Theta$ tiene densidad $p_\Theta(\theta)$ . si la realización de $\Theta$ tiene valor $\theta$ mientras que $x$ es el valor observado de una variable aleatoria $X$ entonces el valor de la función de probabilidad $L(\theta\mid x)$ es precisamente $f(x\mid \theta)$ el valor de la densidad condicional $f_{X\mid\Theta}(x\mid\Theta=\theta)$ de $X$ . La diferencia es que $$\int_{-\infty}^{\infty}f_{X\mid\Theta}(x\mid\Theta=\theta)dx=1$$ para todo realizaciones de $\Theta$ . Sin embargo, en función de $\theta$ (y fija $x$ ), $L(\theta\mid x)$ es no una densidad: $$\int L(\theta\mid x)d\theta\neq 1$$

16voto

farzad Puntos 4180

Suponga que tiene $X_1,\dots,X_n$ variables aleatorias (cuyos valores se observarán en su experimento) que son condicionalmente independientes, dado que $\Theta=\theta$ con densidades condicionales $f_{X_i\mid\Theta}(\,\cdot\mid\theta)$ , para $i=1,\dots,n$ . Este es su modelo estadístico (condicional) (postulado), y las densidades condicionales expresan, para cada valor posible $\theta$ del parámetro (aleatorio) $\Theta$ Su incertidumbre sobre los valores de la $X_i$ 's, antes de tiene acceso a datos reales. Con la ayuda de las densidades condicionales puedes, por ejemplo, calcular probabilidades condicionales como $$ P\{X_1\in B_1,\dots,X_n\in B_n\mid \Theta=\theta\} = \int_{B_1\times\dots\times B_n} \prod_{i=1}^n f_{X_i\mid\Theta}(x_i\mid\theta)\,dx_1\dots dx_n \, , $$ para cada $\theta$ .

Después de tener acceso a una muestra real $(x_1,\dots,x_n)$ de valores (realizaciones) del $X_i$ que se han observado en una ejecución de su experimento, la situación cambia: ya no hay incertidumbre sobre los observables $X_1,\dots,X_n$ . Supongamos que el azar $\Theta$ asume valores en algún espacio de parámetros $\Pi$ . Ahora, se define, para esos valores conocidos (fijos) $(x_1,\dots,x_n)$ una función $$ L_{x_1,\dots,x_n} : \Pi \to \mathbb{R} \, $$ por $$ L_{x_1,\dots,x_n}(\theta)=\prod_{i=1}^n f_{X_i\mid\Theta}(x_i\mid\theta) \, . $$ Tenga en cuenta que $L_{x_1,\dots,x_n}$ conocida como "función de probabilidad" es una función de $\theta$ . En esta situación de "después de tener datos", la probabilidad $L_{x_1,\dots,x_n}$ contiene, para el modelo condicional particular que estamos considerando, toda la información sobre el parámetro $\Theta$ contenida en esta muestra particular $(x_1,\dots,x_n)$ . De hecho, ocurre que $L_{x_1,\dots,x_n}$ es una estadística suficiente para $\Theta$ .

Respondiendo a tu pregunta, para entender las diferencias entre los conceptos de densidad condicional y probabilidad, ten en cuenta sus definiciones matemáticas (que son claramente diferentes: son objetos matemáticos distintos, con propiedades diferentes), y recuerda también que la densidad condicional es un objeto/concepto "pre-muestra", mientras que la probabilidad es uno "post-muestra". Espero que todo esto también te ayude a responder por qué la inferencia bayesiana (usando tu forma de decirlo, que no me parece la ideal) se hace "usando la función de verosimilitud y no la distribución condicional": el objetivo de la inferencia bayesiana es calcular la distribución posterior, y para ello condicionamos la observado datos (conocidos).

0 votos

Creo que Zen tiene razón cuando dice que la probabilidad y la probabilidad condicional son diferentes. En la función de probabilidad no es una variable aleatoria, por lo que es diferente de la probabilidad condicional.

4voto

Aaron Puntos 36

La proporcionalidad se utiliza para simplificar el análisis

El análisis bayesiano se realiza generalmente a través de un una declaración aún más simple del teorema de Bayes, en el que se trabaja sólo en términos de proporcionalidad con respecto al parámetro de interés. Para un modelo IID estándar con densidad de muestreo $f(X|\theta)$ podemos expresar esto como:

$$p(\theta|\mathbf{x}) \propto L_\mathbf{x}(\theta) \cdot p(\theta) \quad \quad \quad \quad L_\mathbf{x}(\theta) \propto \prod_{i=1}^n f(x_i|\theta).$$

Este enunciado de la actualización bayesiana funciona en términos de proporcionalidad con respecto al parámetro $\theta$ . Utiliza dos simplificaciones de proporcionalidad: una en el uso de la función de verosimilitud (proporcional a la densidad de muestreo) y otra en la posterior (proporcional al producto de la verosimilitud y la anterior). Dado que la posterior es una función de densidad (en el caso continuo), la regla de normalización establece la constante multiplicativa necesaria para obtener una densidad válida (es decir, para que se integre en uno).

Este método de uso de la proporcionalidad tiene la ventaja de permitirnos ignorar los elementos multiplicativos de las funciones que no dependen del parámetro $\theta$ . Esto tiende a simplificar el problema al permitirnos barrer las partes innecesarias de las matemáticas, y obtener declaraciones más simples del mecanismo de actualización. Esto no es un requisito matemático (ya que la regla de Bayes también funciona en su forma no proporcional), pero hace que las cosas más sencillo para nuestros pequeños cerebros animales.

Un ejemplo aplicado: Consideremos un modelo IID con datos observados $X_1, ..., X_n \sim \text{IID N}(\theta, 1)$ . Para facilitar nuestro análisis, definimos las estadísticas $\bar{x} = \tfrac{1}{n} \sum_{i=1}^n x_i$ y $\bar{\bar{x}} = \tfrac{1}{n} \sum_{i=1}^n x_i^2$ que son los dos primeros momentos de la muestra. Para este modelo tenemos la densidad de muestreo:

$$\begin{equation} \begin{aligned} f(\mathbf{x}|\theta) = \prod_{i=1}^n f(x_i|\theta) &= \prod_{i=1}^n \text{N}(x_i|\theta,1) \\[6pt] &= \prod_{i=1}^n \frac{1}{\sqrt{2 \pi}} \exp \Big( -\frac{1}{2} (x_i-\theta)^2 \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{1}{2} \sum_{i=1}^n (x_i-\theta)^2 \Big). \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta + \bar{\bar{x}} ) \Big) \\[6pt] &= (2 \pi)^{n/2} \exp \Big( -\frac{n \bar{\bar{x}}}{2} \Big) \cdot \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \\[6pt] \end{aligned} \end{equation}$$

Ahora, podemos trabajar directamente con esta densidad de muestreo si queremos. Pero fíjate en que los dos primeros términos de esta densidad son constantes multiplicativas que no dependen de $\theta$ . Es molesto tener que estar pendiente de estos términos, así que vamos a deshacernos de ellos, para tener la función de probabilidad:

$$L_\mathbf{x}(\theta) = \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big).$$

Esto simplifica un poco las cosas, ya que no tenemos que llevar la cuenta de un término adicional. Ahora, podríamos aplicar la regla de Bayes utilizando su versión completa de la ecuación, incluyendo el denominador integral. Pero, de nuevo, esto nos obliga a seguir la pista de otra molesta constante multiplicativa que no depende de $\theta$ (más molesto porque hay que resolver una integral para obtenerla). Así que vamos a aplicar la regla de Bayes en su forma proporcional. Usando la previa conjugada $\theta \sim \text{N}(0,\lambda_0)$ con algunos conocido parámetro de precisión $\lambda_0>0$ obtenemos el siguiente resultado (por completando el cuadrado ):

$$\begin{equation} \begin{aligned} p(\theta|\mathbf{x}) &\propto L_\mathbf{x}(\theta) \cdot p(\theta) \\[10pt] &= \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \text{N}(\theta|0,\lambda_0) \\[6pt] &\propto \exp \Big( -\frac{n}{2} ( \theta^2 - 2\bar{x} \theta ) \Big) \cdot \exp \Big( -\frac{\lambda_0}{2} \theta^2 \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( n\theta^2 - 2n\bar{x} \theta + \lambda_0 \theta^2 ) \Big) \\[6pt] &= \exp \Big( -\frac{1}{2} ( (n+\lambda_0) \theta^2 - 2n\bar{x} \theta ) \Big) \\[6pt] &= \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta^2 - 2 \frac{n\bar{x}}{n+\lambda_0} \theta \Big) \Big) \\[6pt] &\propto \exp \Big( -\frac{n+\lambda_0}{2} \Big( \theta - \frac{n}{n+\lambda_0} \cdot \bar{x} \Big)^2 \Big) \\[6pt] &\propto \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big). \\[6pt] \end{aligned} \end{equation}$$

Así, a partir de este trabajo podemos ver que la distribución posterior es proporcional a una densidad normal. Como la posterior debe sea una densidad, esto implica que la posterior es esa densidad normal:

$$p(\theta|\mathbf{x}) = \text{N}\Big( \theta \Big| \frac{n}{n+\lambda_0} \cdot \bar{x}, n+\lambda_0 \Big).$$

Por lo tanto, vemos que a posteriori el parámetro $\theta$ se distribuye normalmente con una media y una varianza posteriores dadas por:

$$\mathbb{E}(\theta|\mathbf{x}) = \frac{n}{n+\lambda_0} \cdot \bar{x} \quad \quad \quad \quad \mathbb{V}(\theta|\mathbf{x}) = \frac{1}{n+\lambda_0}.$$

Ahora, la distribución posterior que hemos derivado tiene una constante de integración por delante (que podemos encontrar fácilmente buscando la forma de la distribución normal ). Pero fíjate en que no hemos tenido que preocuparnos por esta constante multiplicativa: todo nuestro trabajo eliminaba (o introducía) constantes multiplicativas siempre que esto simplificara las matemáticas. El mismo resultado puede obtenerse teniendo en cuenta las constantes multiplicativas, pero es mucho más complicado.

0voto

mat_geek Puntos 1367

Creo que la respuesta de Zen te indica realmente la diferencia conceptual entre la función de probabilidad y la densidad conjunta de los valores de las variables aleatorias. Todavía matemáticamente como una función tanto de la x $_i$ s y son lo mismo y en ese sentido la probabilidad puede verse como una densidad de probabilidad. La diferencia que señalas en la fórmula de la distribución posterior de Bayes es sólo una diferencia notacional. Pero la sutileza de la diferencia está muy bien explicada en la respuesta de Zen.

Esta cuestión ha surgido en otras preguntas discutidas en este sitio sobre la función de probabilidad. También otros comentarios de kjetil y Dilip parecen apoyar lo que digo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X