2 votos

Buena forma de utilizar la similitud de palabras como característica en ML supervisado sobre texto

Tengo un conjunto de datos de N bastante bajo de pequeñas frases etiquetadas con una etiqueta. Me gustaría crear un clasificador en este conjunto de datos. La elección de palabras no es muy variable, ya que el dominio es bastante específico. Sin embargo, puede ocurrir que las palabras estén mal escritas o que haya variantes (más raras) que los motores de lematización y stemming no detecten.

¿Cuáles son las mejores prácticas sobre el terreno para tener en cuenta estos factores?

0voto

Saikat Basu Puntos 6

El aprendizaje de su modelo debe basarse en la generalización, para generalizar los datos necesita la unificación. Si no puedes usar stem o lemm, ¿puedes usar Levenshtein para encontrar el término stem o w2v más cercano? Si no se proporciona información sobre la similitud semántica entre las palabras, sino que se tiene en cuenta la falta de ortografía, es de esperar que el modelo sea mucho peor que el modelo con esa información. Sin ver los datos es difícil decir cuál sería la mejor opción para eliminar el ruido de los datos. Sin embargo, es muy importante no saltarse ningún paso de eliminación de ruido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X