Tengo una tarea de clasificación de texto con múltiples clases. Actualmente, el modelo utiliza regresión logística y solo utiliza características de palabras codificadas usando TF-IDF. Pero para algunas de las clases, las características no textuales son muy útiles, como la longitud del texto en palabras, etc.
Mi pregunta es cómo es mejor incluir estas características en el modelo, junto con las características de texto, cómo normalizar los valores, ya que la longitud del texto tiene un rango de valores completamente diferente en comparación con las características de texto codificadas, etc.