(Soy un novato en las estadísticas. Soy un matemático y un programador y estoy tratando de construir algo así como un ingenuo filtro de spam Bayesiano.)
Me he dado cuenta de que en muchos lugares la gente tiende a descomponer el denominador en la ecuación del Teorema de Bayes. Así que en lugar de esto:
$\frac{P(A|B)\cdot P(B)}{P(A)}$
Se nos presenta con este:
$\frac{P(A|B)\cdot P(B)}{P(A|B)\cdot P(B)+P(A|\neg B)\cdot P(\neg B)}$
Usted puede ver que esta convención se usa en este artículo de la Wikipedia y en este perspicaz post por Tim Peters.
Estoy desconcertado por esto. ¿Por qué es el denominador se desglosa así? Cómo ayuda esto a las cosas? ¿Qué tiene de complicado el cálculo de $P(A)$, que en el caso de los filtros de spam sería The probability that the word "cheese" appears in an email, regardless of whether it's spam or not
?