Estaba leyendo sobre Bayes Naive de la Clasificación de hoy. He leído, bajo el título de la Estimación de Parámetros con agregar 1 suavizado:
"Vamos a $c$ se refieren a una clase (como Positivo o Negativo), y deje $w$ se refieren a un tolken o palabra."
"El estimador de máxima verosimilitud para $P(w|c)$ $$\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}."$ $
"Esta estimación de $P(w|c)$ podría ser problemático, ya que nos daría la probabilidad de $0$ para los documentos con las palabras desconocidas. Una forma común de resolver este problema es utilizar el suavizado de Laplace."
"Vamos a V el conjunto de palabras en el conjunto de entrenamiento, agregar un nuevo elemento $UNK$ (por desconocido) para el conjunto de las palabras".
"Definir $$P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + 1},$$
donde $V$ se refiere al vocabulario (las palabras en el conjunto de entrenamiento)."
"En particular, cualquier palabra desconocida tendrá probabilidad de $$\frac{1}{\text{count}(c) + |V| + 1}."$$
En primer lugar, gracias por leer esto ahora. Segundo, mi pregunta es esta: ¿por qué nos molestamos con este suavizado Laplaciano en todo? Si estas palabras desconocidas que nos encontramos en el conjunto de pruebas tienen una probabilidad que es, obviamente, casi a cero, es decir, $\frac{1}{\text{count}(c) + |V| + 1}$, ¿cuál es el punto a incluir en el modelo? Por qué no sólo el desconocimiento y los elimina?