(Soy un novato en las estadísticas. Soy un matemático y un programador y estoy tratando de construir algo así como un ingenuo filtro de spam Bayesiano.)
Me he dado cuenta de que en muchos lugares la gente tiende a descomponer el denominador en la ecuación del Teorema de Bayes. Así que en lugar de esto:
P(A|B)⋅P(B)P(A)P(A|B)⋅P(B)P(A)
Se nos presenta con este:
P(A|B)⋅P(B)P(A|B)⋅P(B)+P(A|¬B)⋅P(¬B)P(A|B)⋅P(B)P(A|B)⋅P(B)+P(A|¬B)⋅P(¬B)
Usted puede ver que esta convención se usa en este artículo de la Wikipedia y en este perspicaz post por Tim Peters.
Estoy desconcertado por esto. ¿Por qué es el denominador se desglosa así? Cómo ayuda esto a las cosas? ¿Qué tiene de complicado el cálculo de P(A)P(A), que en el caso de los filtros de spam sería The probability that the word "cheese" appears in an email, regardless of whether it's spam or not
?