¿alguien conoce alguna Bibliotecas Java ¿para crear la matriz documento-término para un gran número (50.000) de documentos? Me gustaría que esta biblioteca incluyera funcionalidades de preprocesamiento, como la eliminación de palabras de parada y de puntuación, el stemming, etc. Además, deseo utilizar el esquema de ponderación TF*IDF y la funcionalidad de normalización. Preferiblemente, prefiero las bibliotecas Java por la comodidad del desarrollo.
Muchas gracias por cualquier recomendación.