Por lo que he visto, la (de segundo orden) Kneser-Ney suavizado de la fórmula es de alguna u otra manera dada como
$ \begin{align} P^2_{KN}(w_n|w_{n-1}) &= \frac{\max \left\{ C\left(w_{n-1}, w_n\right) - D, 0\right\}}{\sum_{w'} C\left(w_{n-1}, w'\right)} + \lambda(w_{n-1}) \times P_{cont}(w_n) \end{align} $
con el proceso de normalización del factor de $\lambda(w_{n-1})$ da como
$ \begin{align} \lambda(w_{n-1}) &= \frac{D}{\sum_{w'} C\left(w_{n-1}, w'\right)} \times N_{1+}\left(w_{n-1}\bullet\right) \end{align} $
y la continuación de la probabilidad $P_{cont}(w_n)$ de una palabra $w_n$
$ \begin{align} P_{cont}(w_n) &= \frac{N_{1+}\left(\bullet w_{n}\right)}{\sum_{w'} N_{1+}\left(\bullet w'\right)} \end{align} $
donde $N_{1+}\left(\bullet w\right)$ es el número de contextos $w$ fue visto en o, más simple, el número de palabras distintas $\bullet$ que preceden a la palabra dada $w$. Por lo que he entendido, la fórmula se puede aplicar de forma recursiva.
Ahora se encarga de las palabras conocidas desconocido en contextos muy bien para diferentes n-gram longitudes, pero lo que no explica es qué hacer cuando no se fuera-de-palabras del diccionario. He intentado siguiendo este ejemplo que establece que, en la recursividad paso para unigrams, $P_{cont}(/) = P^0_{KN}(/) = \frac{1}{V}$. El documento, a continuación, utiliza este - citando a de Chen y Goodman - para justificar la fórmula anterior como $P^1_{KN}(w) = P_{cont}(w)$.
No puedo ver cómo funciona en la presencia de una palabra desconocida $w = \text{unknown}$, aunque. En estos casos $P_{cont}(\text{unknown}) = \frac{0}{\text{something}}$ ya que, obviamente, la palabra desconocida, no continuará nada sobre el conjunto de entrenamiento. Asimismo, el conde de n-gramas va a ser $C\left(w_{n-1}, \text{unknown}\right) = 0$.
Además, todo el $\sum_{w'} C\left(w_{n-1}, w'\right)$ plazo podría ser cero si una secuencia de palabras desconocidas - por ejemplo, un trigrama de INUNDACIÓN palabras - es encontrado.
Lo que me estoy perdiendo?