2 votos

Tokenización de oraciones que no tienen puntos

¿Cuál es el estado actual de la solución para la tokenización del texto que carece de punto en las oraciones? Si es así, ¿qué programa/implementación recomienda para esta tarea (R, python, Java, etc.)?

Por ejemplo,

hi I am a boy I am a student I like food

en

hi.
I am a boy.
I am a student.
I like food.

0voto

pramodc84 Puntos 788

Si está buscando específicamente un enfoque de ML para el problema, es posible que desee comprobar la RNN - en particular los modelos lingüísticos a nivel de caracteres. Este artículo tiene explicación de los mismos, y el autor proporciona código en Github. Los ejemplos del artículo consiguen tratar la sintaxis del código, por lo que el modelo debería estar bien para predecir la puntuación, siempre y cuando se tenga un conjunto de datos de entrenamiento adecuado.

Sin embargo, la perspectiva ML puede no ser el mejor enfoque, ya que probablemente conservará alguna tasa de error no nula, independientemente de la cantidad de entrenamiento. Me imagino que un análisis del árbol de una frase puede indicar la transición de una frase simple a una compleja. Este El analizador sintáctico detecta la(s) palabra(s) superflua(s), lo que podría servir para comprobar si el texto proporcionado debe seguir dividiéndose en frases separadas.

0voto

Josh Pearce Puntos 2288

Tome cualquier modelo RNN razonable a nivel de palabra (o de carácter si es realmente necesario), descargue el corpus de Wikipedia o realmente cualquier corpus de texto grande. A continuación, forme un conjunto de oraciones de entrenamiento en el que la RNN prediga si debe haber un punto o no. En otras palabras, tome un lote de oraciones y elimine los puntos, y luego haga que la RNN prediga su ubicación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X