8 votos

El lenguaje de modelado: ¿por qué es la adición de hasta 1 tan importante?

En muchas aplicaciones de procesamiento de lenguaje natural, tales como la corrección ortográfica, un traductor automático y reconocimiento de voz, utilizamos modelos de lenguaje. Modelos de lenguaje se crean generalmente por contar cómo a menudo las secuencias de palabras (n-gramas) ocurren en un gran corpus y la normalización de los recuentos para crear una probabilidad. Para dar cuenta de los invisibles de n-gramas, utilizamos métodos de suavizado (ver varios de los mencionados aquí), que llevará a algunos de la probabilidad de la masa de los n-gramas que se atestigua en el modelo y la distribución de esta masa entre los menores de orden n-gram (más cortas secuencias de palabras) multiplicador de probabilidades.

Muchas de las técnicas de suavizamiento convertido matemáticamente compleja, debido a la restricción de que los cálculos deben mantener la distribución de probabilidad (deben sumar 1).

¿Cuál es la razón de esta restricción? ¿Cuál es la ventaja de la utilización estricta de las probabilidades para la predicción en lugar de las puntuaciones de cualquier otro tipo?

P. S. La referencia correspondiente al enlace es [Stanley F. Chen y Joshua Goodman (1998), "Un Estudio Empírico de las Técnicas de Suavizamiento para el Lenguaje de Modelado"].

5voto

166_MMX Puntos 481

Las principales ventajas de la utilización estricta de las probabilidades: a) la facilidad de interpretación de los números; y b) ser capaz de utilizar el teorema de Bayes, y otros métodos probabilísticos en posteriores análisis. En algunas situaciones, sin embargo, es innecesario. Por ejemplo, si usted sólo desea alinear los resultados con ningún otro análisis, entonces no hay necesidad de normalizar las puntuaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X