Buena forma de utilizar la similitud de palabras como característica en ML supervisado sobre texto

Question

Buena forma de utilizar la similitud de palabras como característica en ML supervisado sobre texto

Preguntado el 6 de Febrero, 2019: Cuando se hizo la pregunta
45 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Tengo un conjunto de datos de N bastante bajo de pequeñas frases etiquetadas con una etiqueta. Me gustaría crear un clasificador en este conjunto de datos. La elección de palabras no es muy variable, ya que el dominio es bastante específico. Sin embargo, puede ocurrir que las palabras estén mal escritas o que haya variantes (más raras) que los motores de lematización y stemming no detecten.

¿Cuáles son las mejores prácticas sobre el terreno para tener en cuenta estos factores?

Preguntado el 6 de Febrero, 2019 por mtruesdell

Answer 1

1 Respuestas

Answer 2

0voto

Saikat Basu Puntos 6

El aprendizaje de su modelo debe basarse en la generalización, para generalizar los datos necesita la unificación. Si no puedes usar stem o lemm, ¿puedes usar Levenshtein para encontrar el término stem o w2v más cercano? Si no se proporciona información sobre la similitud semántica entre las palabras, sino que se tiene en cuenta la falta de ortografía, es de esperar que el modelo sea mucho peor que el modelo con esa información. Sin ver los datos es difícil decir cuál sería la mejor opción para eliminar el ruido de los datos. Sin embargo, es muy importante no saltarse ningún paso de eliminación de ruido.

Respondido el 6 de Febrero, 2019 por Saikat Basu (6 Puntos )

Buena forma de utilizar la similitud de palabras como característica en ML supervisado sobre texto

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Buena forma de utilizar la similitud de palabras como característica en ML supervisado sobre texto

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: