1 votos

¿Cómo utilizar más características en los modelos de aprendizaje automático basados en el texto más allá del propio texto?

Tengo un conjunto de datos de texto de tal manera que para cada documento del texto tengo más características como la categoría del documento, la subcategoría del documento y algunas características anónimas que son flotantes. Puedo modelar un modelo teniendo en cuenta sólo las características TF-IDF del texto de cada documento, pero no utilizaré otra información relevante codificada en otras características. Una forma podría ser añadir estas características al texto del documento y luego hacer TF-IDF, lo cual es obviamente incorrecto.

¿Puede alguien ayudarme a entender cómo puedo utilizar estas otras características del conjunto de datos junto con el texto para construir un modelo?

1voto

Bill Puntos 21

Concatene las características, codificadas adecuadamente (codificación ficticia, etc.), al final de su vector tf idf.

Dado que las características del TF-IDF son altamente dimensionales y usted desea utilizar un modelo más simple, puede intentar aplicar una reducción de la dimensionalidad en la matriz del TF-IDF (por ejemplo, PCA). A continuación, concatene las otras características del documento al resultado. Nota: es posible que tenga que considerar la estandarización, la normalización, dependiendo del algoritmo de aprendizaje automático que elija.

0voto

Anna Gill Puntos 11

Puedes dedicar algunas N neuronas de entrada (siendo N el tamaño de las "otras" características) para recibir alguna representación de esas características de entrada y trabajar como siempre.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X