16 votos

En Kneser-Ney suavizado, cómo se ven las palabras se manejan?

Por lo que he visto, la (de segundo orden) Kneser-Ney suavizado de la fórmula es de alguna u otra manera dada como

$ \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} $

con el proceso de normalización del factor de $\lambda(w_{n-1})$ da como

$ \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} $

y la continuación de la probabilidad $P_{cont}(w_n)$ de una palabra $w_n$

$ \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} $

donde $N_{1+}\left(\bullet w\right)$ es el número de contextos $w$ fue visto en o, más simple, el número de palabras distintas $\bullet$ que preceden a la palabra dada $w$. Por lo que he entendido, la fórmula se puede aplicar de forma recursiva.

Ahora se encarga de las palabras conocidas desconocido en contextos muy bien para diferentes n-gram longitudes, pero lo que no explica es qué hacer cuando no se fuera-de-palabras del diccionario. He intentado siguiendo este ejemplo que establece que, en la recursividad paso para unigrams, $P_{cont}(/) = P^0_{KN}(/) = \frac{1}{V}$. El documento, a continuación, utiliza este - citando a de Chen y Goodman - para justificar la fórmula anterior como $P^1_{KN}(w) = P_{cont}(w)$.

No puedo ver cómo funciona en la presencia de una palabra desconocida $w = \text{unknown}$, aunque. En estos casos $P_{cont}(\text{unknown}) = \frac{0}{\text{something}}$ ya que, obviamente, la palabra desconocida, no continuará nada sobre el conjunto de entrenamiento. Asimismo, el conde de n-gramas va a ser $C\left(w_{n-1}, \text{unknown}\right) = 0$.

Además, todo el $\sum_{w'} C\left(w_{n-1}, w'\right)$ plazo podría ser cero si una secuencia de palabras desconocidas - por ejemplo, un trigrama de INUNDACIÓN palabras - es encontrado.

Lo que me estoy perdiendo?

6voto

harto Puntos 28479

Dan Jurafsky ha publicado un capítulo de la N-Gram modelos que habla un poco acerca de este problema:

A la terminación de la recursividad, unigrams se interpolan con la distribución uniforme:

$ \begin{align} P_{KN}(w) = \frac{\max(c_{KN}(w)-d,0)}{\sum_{w'}c_{KN}(w')}+\lambda(\epsilon)\frac{1}{|V|} \end{align} $

Si queremos incluir una palabra desconocida <UNK>, sólo se incluye como un vocabulario de entrada con el número cero, y por lo tanto su probabilidad será:

$ \begin{align} \frac{\lambda(\epsilon)}{|V|} \end{align} $

He tratado de averiguar lo que esto significa, pero no estoy seguro de si $\epsilon$ medio $\lim_{x\rightarrow0}x$. Si este es el caso, y se supone que como el conteo llega a cero, quizás $\lambda(\epsilon)$$d$, de acuerdo a:

$ \begin{align} \lambda(w_{i-1}) = \frac{d}{c(w_{i-1})}\vert\{w:c(w_{i-1},w)>0\}\vert \end{align} $

then the unknown word just gets assigned a fraction of the discount, i.e.:

$ \begin{align} \frac{\lambda(\epsilon)}{|V|} = \frac{d}{|V|} \end{align} $

No estoy seguro acerca de esta respuesta, pero quería salir de allí en caso de que las chispas más pensamientos.

Actualización: Escarbando un poco más, parece como $\epsilon$ se utiliza normalmente para referirse a la cadena vacía (""), pero aún no está claro cómo esto afecta el cálculo de $\lambda$. $\frac{d}{|V|}$ es mi mejor conjetura

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X