Al realizar la construcción de características para la minería de textos, ¿tiene Lucene un mejor rendimiento en términos de clasificación/clasificación que el enfoque tradicional de bolsa de palabras?
Respuesta
¿Demasiados anuncios?Los analizadores de Lucene ofrecen más flexibilidad que la mayoría de los extractores de rasgos ingenuos (stemming y lematización específicos del idioma, normalización ICU, n-gramas y tokenización basada en shingle...).
Depende de los datos / el problema / el usuario para determinar si esa flexibilidad le permitirá construir mejores modelos o simplemente añadir una característica ruidosa en su conjunto de datos preprocesados.