29 votos

¿Por qué se requiere un factor de normalización en el Teorema de Bayes?

El teorema de Bayes dice $$ P( \textrm {model}| \textrm {data}) = \frac {P( \textrm {model}) \times P( \textrm {data}| \textrm {model})}{P( \textrm {data})} $$

Todo esto está bien. Pero, he leído en alguna parte:

Básicamente, P(data) no es más que una constante normalizadora, es decir, una constante que hace que la densidad posterior se integre a una.

Sabemos que $0 \leq P( \textrm {model}) \leq 1$ y $ 0 \leq P( \textrm {data}| \textrm {model}) \leq 1$ .

Por lo tanto, $P( \textrm {model}) \times P( \textrm {data}| \textrm {model})$ debe estar entre 0 y 1 también. En tal caso, ¿por qué necesitamos una constante normalizadora para hacer que la posterior se integre a una?

22voto

RSXAdmin Puntos 92

Primero , la integral de "probabilidad x anterior" no es necesariamente 1 .

No es cierto que si:

$0 \leq P( \textrm {model}) \leq 1$ y $ 0 \leq P( \textrm {data}| \textrm {model}) \leq 1$

entonces la integral de este producto con respecto al modelo (a los parámetros del modelo, en efecto) es 1.

Demostración. Imagine dos densidades discretas: $$ P( \textrm {model}) = [0.5, 0.5] \text { (this is called "prior")} \\ P( \textrm {data | model}) = [0.80, 0.2] \text { (this is called "likelihood")} \\ $$

Si los multiplicas a ambos, obtienes: $$ [0.40, 0.25] $$ que no es una densidad válida ya que no se integra en una: $$ 0.40 + 0.25 = 0.65 $$

Entonces, ¿qué deberíamos hacer para forzar la integral a ser 1? Usar el factor normalizador, que es: $$ \sum_ { \text {model_params}} P( \text {model}) P( \text {data | model}) = \sum_\text {model_params} P( \text {model, data}) = P( \text {data}) = 0.65 $$

(Perdón por la pobre notación. Escribí tres expresiones diferentes para la misma cosa, ya que puede que las veas todas en la literatura)

Segundo , la "probabilidad" puede ser cualquier cosa, e incluso si es una densidad, puede tener valores superiores a 1 .

Como dijo @whuber, estos factores no necesitan estar entre 0 y 1. Necesitan que su integral (o suma) sea 1.

Tercero [extra], "conjugados" son tus amigos para ayudarte a encontrar la constante normalizadora .

Lo verás a menudo: $$ P( \textrm {model}| \textrm {data}) \propto P( \textrm {data}| \textrm {model}) P( \text {model}) $$ porque el denominador faltante puede ser fácilmente obtenido integrando este producto. Nótese que esta integración tendrá un resultado bien conocido si el anterior y la probabilidad son conjugar .

16voto

heropup Puntos 2278

La respuesta corta a su pregunta es que sin el denominador, la expresión en el lado derecho es simplemente una probabilidad no un probabilidad que sólo puede oscilar entre 0 y 1. La "constante normalizadora" nos permite obtener la probabilidad de que ocurra un evento, y no sólo la probabilidad relativa de ese evento en comparación con otro.

11voto

Dipstick Puntos 4869

Ya tienes dos respuestas válidas, pero déjame añadir mis dos centavos.

El teorema de Bayes se define a menudo como:

$$P( \textrm {model}| \textrm {data}) \varpropto P( \textrm {model}) \times P( \textrm {data}| \textrm {model})$$

porque la única razón por la que necesitas la constante es para que se integre a 1 (ver las respuestas de los demás). Esto no es necesario en la mayoría de los enfoques de simulación del MCMC para el análisis bayesiano y, por lo tanto, la constante se elimina de la ecuación. Así que para la mayoría de las simulaciones es no incluso requerido.

I amor la descripción de Kruschke El último cachorro (constante) tiene sueño porque no tiene nada que hacer en la fórmula.

enter image description here

También algunos, como Andrew Gelman, consideran la constante como "sobrevalorada" y "básicamente sin sentido cuando la gente usa prioridades planas" (ver la discusión aquí ).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X