4 votos

Bases de datos públicas de modelos HMM aprendidos para PNL

Entiendo que los modelos HMM modelan el lenguaje con Partes del Lenguaje (POS) como estados ocultos y palabras como observaciones. Estos modelos HMM suelen aprenderse a partir de grandes corpus de texto, y muchos de estos corpus están disponibles públicamente. ¿Dónde puedo encontrar estos modelos con sus parámetros, es decir, la lista de POS u otros estados ocultos, las palabras observadas, las probabilidades de transición y las probabilidades de emisión? No me importa si los modelos se aprenden estadísticamente a partir de un gran corpus o del conocimiento de los expertos o de alguna combinación. Necesito modelos entrenados que pueda utilizar. ¿Existe alguna fuente pública de este tipo de conocimiento?

2voto

Bert F Puntos 27237

http://wordnet.princeton.edu/ no es directamente lo que busca, pero podría ser útil. Tiene una gran lista de palabras, tallos y muchos enlaces diferentes entre ellos. A mí me sirvió como recurso para crear un motor de PNL.

1voto

JMW.APRN Puntos 21

Python NLTK tiene un conjunto de datos llamado hmm_treebank_pos_tagger que puede descargar aquí . Stanford tiene un etiquetador POS descrito aquí . Puede descargarlo junto con el datos de entrenamiento

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X