3 votos

Programas informáticos o bibliotecas para crear matrices de documentos

¿alguien conoce alguna Bibliotecas Java ¿para crear la matriz documento-término para un gran número (50.000) de documentos? Me gustaría que esta biblioteca incluyera funcionalidades de preprocesamiento, como la eliminación de palabras de parada y de puntuación, el stemming, etc. Además, deseo utilizar el esquema de ponderación TF*IDF y la funcionalidad de normalización. Preferiblemente, prefiero las bibliotecas Java por la comodidad del desarrollo.

Muchas gracias por cualquier recomendación.

3voto

James Sutherland Puntos 2033

JFreq puede hacer lo que quieres. También hay una versión de línea de comandos.

3voto

Nadeem Puntos 106

Weka ofrece esta funcionalidad en Java. Inicie Weka y abra el archivo Explorer . A continuación, cargue su conjunto de datos y aplique el StringToWordVector filtro. Este filtro puede crear una matriz de términos del documento (ya sea binaria o por frecuencia), hacer IDF, eliminación de palabras de parada, stemming, normalización, eliminación de puntuación y más.

2voto

Chillie Puntos 281

0voto

Marcos Placona Puntos 133

Cleartk http://code.google.com/p/cleartk/ es un paquete construido sobre Apache UIMA. La configuración es un poco complicada, pero funciona.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X