¿Cuál es la mejor manera de incluir características no lingüísticas en un modelo de clasificación de texto?

Question

¿Cuál es la mejor manera de incluir características no lingüísticas en un modelo de clasificación de texto?

Preguntado el 30 de Diciembre, 2016: Cuando se hizo la pregunta
516 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo una tarea de clasificación de texto con múltiples clases. Actualmente, el modelo utiliza regresión logística y solo utiliza características de palabras codificadas usando TF-IDF. Pero para algunas de las clases, las características no textuales son muy útiles, como la longitud del texto en palabras, etc.

Mi pregunta es cómo es mejor incluir estas características en el modelo, junto con las características de texto, cómo normalizar los valores, ya que la longitud del texto tiene un rango de valores completamente diferente en comparación con las características de texto codificadas, etc.

Preguntado el 30 de Diciembre, 2016 por helloandre

Answer 1

1 Respuestas

Answer 2

1voto

Joje Puntos 61

Suelo estandarizar todas mis características para que signifiquen 0 y tengan una desviación estándar de 1. Sin embargo, suelo trabajar SOLAMENTE con características no lingüísticas (trabajo en la legibilidad de textos, lo que significa que la mayoría de las características que uso son estructurales en lugar de léxicas y las pocas características léxicas son agregadas). ¿Quizás tal estandarización podría ser inestable con un modelo de lenguaje TF-IDF?

Respondido el 30 de Diciembre, 2016 por Joje (61 Puntos )

¿Cuál es la mejor manera de incluir características no lingüísticas en un modelo de clasificación de texto?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cuál es la mejor manera de incluir características no lingüísticas en un modelo de clasificación de texto?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: