2 votos

Construcción de rasgos textuales basados en Lucene

Al realizar la construcción de características para la minería de textos, ¿tiene Lucene un mejor rendimiento en términos de clasificación/clasificación que el enfoque tradicional de bolsa de palabras?

2voto

On Freund Puntos 3479

Los analizadores de Lucene ofrecen más flexibilidad que la mayoría de los extractores de rasgos ingenuos (stemming y lematización específicos del idioma, normalización ICU, n-gramas y tokenización basada en shingle...).

Depende de los datos / el problema / el usuario para determinar si esa flexibilidad le permitirá construir mejores modelos o simplemente añadir una característica ruidosa en su conjunto de datos preprocesados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X