1 votos

¿Cuál es la mejor manera de incluir características no lingüísticas en un modelo de clasificación de texto?

Tengo una tarea de clasificación de texto con múltiples clases. Actualmente, el modelo utiliza regresión logística y solo utiliza características de palabras codificadas usando TF-IDF. Pero para algunas de las clases, las características no textuales son muy útiles, como la longitud del texto en palabras, etc.

Mi pregunta es cómo es mejor incluir estas características en el modelo, junto con las características de texto, cómo normalizar los valores, ya que la longitud del texto tiene un rango de valores completamente diferente en comparación con las características de texto codificadas, etc.

1voto

Joje Puntos 61

Suelo estandarizar todas mis características para que signifiquen 0 y tengan una desviación estándar de 1. Sin embargo, suelo trabajar SOLAMENTE con características no lingüísticas (trabajo en la legibilidad de textos, lo que significa que la mayoría de las características que uso son estructurales en lugar de léxicas y las pocas características léxicas son agregadas). ¿Quizás tal estandarización podría ser inestable con un modelo de lenguaje TF-IDF?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X