Me pasé tres días haciendo pinitos con tm
después de leer un borrador de un amigo en el que exploraba un corpus de texto con UCINET, mostrando nubes de texto, gráficos de red de dos modos y descomposición de valores simples (con gráficos, usando Stata). Me encontré con un gran número de problemas: en Mac OS X, hay problemas con el Java detrás de bibliotecas como Snowball (stemming) o Rgraphviz (gráficos).
¿Podría alguien señalar no paquetes - He mirado tm
, wordfish
y wordscores
y conocer el NLTK - pero investigación, a ser posible con código, sobre datos textuales, que utilice con éxito tm
¿o algo más para analizar datos como debates parlamentarios o documentos legislativos? Parece que no puedo encontrar mucho sobre el tema, y aún menos código del que aprender.
Mi propio proyecto es un debate parlamentario de dos meses, con estas variables informadas en un archivo CSV: sesión parlamentaria, orador, grupo parlamentario, texto de la intervención oral. Busco las divergencias entre los oradores y, sobre todo, entre los grupos parlamentarios en el uso de términos raros y menos raros, por ejemplo, "hablar de seguridad" frente a hablar de "libertades civiles".