En muchas aplicaciones de procesamiento de lenguaje natural, tales como la corrección ortográfica, un traductor automático y reconocimiento de voz, utilizamos modelos de lenguaje. Modelos de lenguaje se crean generalmente por contar cómo a menudo las secuencias de palabras (n-gramas) ocurren en un gran corpus y la normalización de los recuentos para crear una probabilidad. Para dar cuenta de los invisibles de n-gramas, utilizamos métodos de suavizado (ver varios de los mencionados aquí), que llevará a algunos de la probabilidad de la masa de los n-gramas que se atestigua en el modelo y la distribución de esta masa entre los menores de orden n-gram (más cortas secuencias de palabras) multiplicador de probabilidades.
Muchas de las técnicas de suavizamiento convertido matemáticamente compleja, debido a la restricción de que los cálculos deben mantener la distribución de probabilidad (deben sumar 1).
¿Cuál es la razón de esta restricción? ¿Cuál es la ventaja de la utilización estricta de las probabilidades para la predicción en lugar de las puntuaciones de cualquier otro tipo?
P. S. La referencia correspondiente al enlace es [Stanley F. Chen y Joshua Goodman (1998), "Un Estudio Empírico de las Técnicas de Suavizamiento para el Lenguaje de Modelado"].