Para mí, el teorema de Bayes consiste en invertir las funciones de probabilidad, y en ese contexto llamarlo probabilidad marginal tiene sentido.
- Digamos que tengo una observación c ,
- y un conjunto de estados s={s1,…,sn} que podría estar causando esa observación.
- Y cada uno de esos estados también define una probabilidad: P(c∣si)
- también tenemos una previa P(si) (Asumo que ya has motivado lo anterior, si no es así haz otra pregunta en este sitio)
- Así que quiero saber el estado, basado en la variable
- Si sólo quisiera saber cuál es el estado más probable, y cómo se comparan entre sí, podría definir una función de puntuación, combinando la probabilidad de nuestra observación dado que estamos en el estado, con la probabilidad base de estar en el estado: scorec(si)=P(c∣si)P(si)
- Entonces, para encontrar el estado más probable s⋆ Yo sólo encontraría el argmax s⋆=argmax∀si∈sscorec(si)=argmax∀si∈sP(c∣si)P(si)
- La función de puntuación es muy bonita. Podemos pensar en un vector de puntuación, que tiene todas las puntuaciones y podemos ver cuál es la más probable, y cuál es la menos. Pero no se suma a uno. Nos gustaría que la suma fuera de uno -- lo normalizaríamos y lo llamaríamos probabilidad (aunque no lo sea -- pero resultará que lo es). Nuestra puntuación normalizada sólo depende de c por lo que será P(si∣c) La justificación adecuada de esto está fuera del alcance de esta respuesta. La puntuación normalizada viene dada por P(si∣c)=scorec(si)∑∀sj∈sscorec(sj)=P(c∣si)P(si)∑∀sj∈sP(c∣sj)P(sj)
- lo anterior es una forma muy útil del Teorema de Bayes.
- veamos más de cerca el resultado final: ∑∀sj∈sP(c∣sj)P(sj)=∑∀sj∈sP(c,sj)
- Así que estamos sumando la probabilidad conjunta, sobre todos los posibles valores que puede tomar uno de sus campos. Esa es la propia definición de la probabilidad marginal del otro campo. P(c)=∑∀sj∈sP(c,sj)
- Nuestro fondo como -- el factor de normalización para que sume a uno -- que es sólo la probabilidad marginal de c . Sustituyendo eso de nuevo: P(si∣c)=P(c∣si)P(si)P(c)
Así que el resultado final P(c) era sólo una probabilidad marginal, que encontramos sumando sobre todos los valores posibles para el otro campo ( si ) en la línea superior.