Tengo un conjunto de datos de N bastante bajo de pequeñas frases etiquetadas con una etiqueta. Me gustaría crear un clasificador en este conjunto de datos. La elección de palabras no es muy variable, ya que el dominio es bastante específico. Sin embargo, puede ocurrir que las palabras estén mal escritas o que haya variantes (más raras) que los motores de lematización y stemming no detecten.
¿Cuáles son las mejores prácticas sobre el terreno para tener en cuenta estos factores?