Tokenización de oraciones que no tienen puntos

Question

Tokenización de oraciones que no tienen puntos

Preguntado el 1 de Noviembre, 2016: Cuando se hizo la pregunta
356 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Cerrada: Estado actual de la pregunta

¿Cuál es el estado actual de la solución para la tokenización del texto que carece de punto en las oraciones? Si es así, ¿qué programa/implementación recomienda para esta tarea (R, python, Java, etc.)?

Por ejemplo,

hi I am a boy I am a student I like food

en

hi.
I am a boy.
I am a student.
I like food.

Preguntado el 1 de Noviembre, 2016 por Greg

Answer 1

2 Respuestas

Answer 2

0voto

pramodc84 Puntos 788

Si está buscando específicamente un enfoque de ML para el problema, es posible que desee comprobar la RNN - en particular los modelos lingüísticos a nivel de caracteres. Este artículo tiene explicación de los mismos, y el autor proporciona código en Github. Los ejemplos del artículo consiguen tratar la sintaxis del código, por lo que el modelo debería estar bien para predecir la puntuación, siempre y cuando se tenga un conjunto de datos de entrenamiento adecuado.

Sin embargo, la perspectiva ML puede no ser el mejor enfoque, ya que probablemente conservará alguna tasa de error no nula, independientemente de la cantidad de entrenamiento. Me imagino que un análisis del árbol de una frase puede indicar la transición de una frase simple a una compleja. Este El analizador sintáctico detecta la(s) palabra(s) superflua(s), lo que podría servir para comprobar si el texto proporcionado debe seguir dividiéndose en frases separadas.

Respondido el 2 de Noviembre, 2016 por pramodc84 (788 Puntos )

Answer 3

0voto

Josh Pearce Puntos 2288

Tome cualquier modelo RNN razonable a nivel de palabra (o de carácter si es realmente necesario), descargue el corpus de Wikipedia o realmente cualquier corpus de texto grande. A continuación, forme un conjunto de oraciones de entrenamiento en el que la RNN prediga si debe haber un punto o no. En otras palabras, tome un lote de oraciones y elimine los puntos, y luego haga que la RNN prediga su ubicación.

Respondido el 11 de Marzo, 2019 por Josh Pearce (2288 Puntos )

Tokenización de oraciones que no tienen puntos

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Tokenización de oraciones que no tienen puntos

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: