Entiendo que los modelos HMM modelan el lenguaje con Partes del Lenguaje (POS) como estados ocultos y palabras como observaciones. Estos modelos HMM suelen aprenderse a partir de grandes corpus de texto, y muchos de estos corpus están disponibles públicamente. ¿Dónde puedo encontrar estos modelos con sus parámetros, es decir, la lista de POS u otros estados ocultos, las palabras observadas, las probabilidades de transición y las probabilidades de emisión? No me importa si los modelos se aprenden estadísticamente a partir de un gran corpus o del conocimiento de los expertos o de alguna combinación. Necesito modelos entrenados que pueda utilizar. ¿Existe alguna fuente pública de este tipo de conocimiento?
Respuestas
¿Demasiados anuncios?
Bert F
Puntos
27237
http://wordnet.princeton.edu/ no es directamente lo que busca, pero podría ser útil. Tiene una gran lista de palabras, tallos y muchos enlaces diferentes entre ellos. A mí me sirvió como recurso para crear un motor de PNL.
Python NLTK tiene un conjunto de datos llamado hmm_treebank_pos_tagger que puede descargar aquí . Stanford tiene un etiquetador POS descrito aquí . Puede descargarlo junto con el datos de entrenamiento