36 votos

En Naive Bayes, ¿por qué molestarse con laplaciano suavizado cuando tenemos desconocido palabras en el conjunto de la prueba?

Estaba leyendo sobre Bayes Naive de la Clasificación de hoy. He leído, bajo el título de la Estimación de Parámetros con agregar 1 suavizado:

"Vamos a $c$ se refieren a una clase (como Positivo o Negativo), y deje $w$ se refieren a un tolken o palabra."

"El estimador de máxima verosimilitud para $P(w|c)$ $$\frac{count(w,c)}{count(c)} = \frac{\text{counts w in class c}}{\text{counts of words in class c}}."$ $

"Esta estimación de $P(w|c)$ podría ser problemático, ya que nos daría la probabilidad de $0$ para los documentos con las palabras desconocidas. Una forma común de resolver este problema es utilizar el suavizado de Laplace."

"Vamos a V el conjunto de palabras en el conjunto de entrenamiento, agregar un nuevo elemento $UNK$ (por desconocido) para el conjunto de las palabras".

"Definir $$P(w|c)=\frac{\text{count}(w,c) +1}{\text{count}(c) + |V| + 1},$$

donde $V$ se refiere al vocabulario (las palabras en el conjunto de entrenamiento)."

"En particular, cualquier palabra desconocida tendrá probabilidad de $$\frac{1}{\text{count}(c) + |V| + 1}."$$

En primer lugar, gracias por leer esto ahora. Segundo, mi pregunta es esta: ¿por qué nos molestamos con este suavizado Laplaciano en todo? Si estas palabras desconocidas que nos encontramos en el conjunto de pruebas tienen una probabilidad que es, obviamente, casi a cero, es decir, $\frac{1}{\text{count}(c) + |V| + 1}$, ¿cuál es el punto a incluir en el modelo? Por qué no sólo el desconocimiento y los elimina?

21voto

RVC Puntos 33

Digamos que has entrenado a tu Clasificador Naive Bayes en 2 clases, "Jamón" y "Spam" (es decir, se clasifica a los mensajes de correo electrónico). Por el bien de la simplicidad, asumiremos que las probabilidades previas para ser 50/50.

Ahora digamos que usted tiene un correo electrónico a $(w_1, w_2,...,w_n)$ que su clasificador tasas muy muy como el "Jamón", dicen $$P(w_1,w_2,...w_n |Ham) = .90$$ and $$P(w_1,w_2,..w_n |Spam) = .10$$

Hasta ahora tan bueno.

Ahora digamos que usted tiene otro correo electrónico $(w_1, w_2, ...,w_n,w_{n+1})$ que es exactamente el mismo que el anterior correo, excepto que hay una palabra que no está incluido en el vocabulario. Por lo tanto, desde este word count es 0, $$P(w_{n+1}|Ham) = P(w_{n+1}|Spam) = 0$$

De repente, $$P(w_1,w_2,...w_n,w_{n+1} |Ham) = P(w_1,w_2,...w_n|Ham) * P(w_{n+1}|Ham) = 0$$ and $$P(w_1,w_2,..w_n,w_{n+1} |Spam) = P(w_1,w_2,...w_n|Spam) * P(w_{n+1}|Spam) = 0$$

A pesar de que el 1º de correo electrónico está siendo fuertemente clasificado en una clase, esta 2ª de correo electrónico pueden ser clasificados de manera diferente debido a que la última palabra tener una probabilidad de cero.

Suavizado de Laplace resuelve esto de dar la última palabra de una pequeña probabilidad distinta de cero para ambas clases, de modo que las probabilidades posteriores no baje a cero.

18voto

OpenAndroid Puntos 116

Siempre se necesita esta "fail-safe' probabilidad.

A ver, ¿por qué considerar el peor de los casos en donde ninguna de las palabras en la formación de la muestra aparecen en la frase. En este caso, bajo su modelo de concluiríamos que la sentencia es imposible, pero claramente existe la creación de una contradicción.

Otro ejemplo extremo es la frase "Alex conoció a Steve." donde "met" aparece varias veces en la formación de la muestra, pero "Alex" y "Steve" no. Su modelo a la conclusión de que esta declaración es muy probable que no es verdad.

7voto

jpmuc Puntos 4817

Prescindiendo de esas palabras es otra manera de manejarlo. Corresponde a un promedio de (integrar a cabo) sobre todos los que faltan variables. Por lo que el resultado es diferente. Cómo?

Suponiendo que la notación utilizada aquí: $$ P(C^{*}|d) = \arg\max_{C} \frac{\prod_{i}p(t_{i}|C)P(C)}{P(d)} \propto \arg\max_{C} \prod_{i}p(t_{i}|C)P(C) $$ donde $t_{i}$ son los tokens en el vocabulario y $d$ es un documento.

Digamos token $t_{k}$ no aparece. En lugar de utilizar un suavizado de Laplace (que proviene de la imposición de un Dirichlet antes en la Bayes multinomial), se suma a cabo $t_{k}$ que corresponde a decir: me tome un voto ponderado sobre todas las posibilidades para el desconocido tokens (tener o no).

$$ P(C^{*}|d) \propto \arg\max_{C} \sum_{t_{k}} \prod_{i}p(t_{i}|C)P(C) = \arg\max_{C} P(C)\prod_{i \neq k}p(t_{i}|C) \sum_{t_{k}} p(t_{k}|C) = \arg\max_{C} P(C)\prod_{i \neq k}p(t_{i}|C) $$

Pero en la práctica se prefiere el enfoque suavizado. En lugar de ignorar a esos símbolos, que les asigne una probabilidad baja que es como pensar: si tengo desconocido tokens, es más raro que es el tipo de documento que había de otra manera creo que es.

1voto

Just a lil kid Puntos 97

Matt es correcto plantear un muy buen punto - sí Suavizado Laplaciano es francamente absurdo! Simplemente tirar a la basura todas esas características puede ser un enfoque válido, especialmente cuando el denominador es también un número pequeño - simplemente no hay suficiente evidencia para apoyar la probabilidad de la estimación.

Tengo una fuerte aversión a la solución de cualquier problema a través de la utilización de algunos de los arbitraria de ajuste. El problema aquí es de ceros, la "solución" es sólo "agregar algunas pequeñas valor a cero, por lo que no es cero - por arte de MAGIA el problema no es más". Por supuesto que es totalmente arbitrario.

Su propuesta de la mejor selección de características para comenzar con un menor enfoque arbitrario IME y aumenta el rendimiento. Además de Suavizado Laplaciano en conjunción con naive bayes como el modelo, en mi experiencia empeora la granularidad problema - es decir, el problema donde los puntajes de salida tienden a estar cerca de 1,0 0,0 (si el número de características es infinito, cada puntuación será de 1,0 0,0 - esto es una consecuencia de la independencia de la asunción).

Ahora alternativas técnicas para la estimación de la probabilidad de existir (aparte de max probabilidad + suavizado laplaciano), pero son masivamente bajo documentado. De hecho, hay todo un campo llamado Inductivo de la Lógica y de la Inferencia de Procesos que utilizan una gran cantidad de herramientas de la Teoría de la Información.

Lo usamos en la práctica es de un Mínimo de Cruzar la Actualización de la Entropía, que es una extensión de Jeffrey Actualización donde se definen convexo de la región de probabilidad espacio consistente con la evidencia de ser la región de tal manera que un punto en que esto significaría que la Máxima Probabilidad de la estimación es dentro del Absoluto de la Desviación desde el punto.

Este tiene una buena propiedad que a medida que el número de puntos de datos disminuye las estimaciones de la paz sabio suavemente enfoque de la previa - y, por tanto, su efecto en el cálculo bayesiano es nulo. Suavizado laplaciano en el otro lado hace que cada método de estimación el punto de Máxima Entropía puede que no sea el antes y por lo tanto el efecto en el cálculo no es null y acaba de añadir ruido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X