14 votos

Ejemplos de minería de textos con R (paquete tm)

Me pasé tres días haciendo pinitos con tm después de leer un borrador de un amigo en el que exploraba un corpus de texto con UCINET, mostrando nubes de texto, gráficos de red de dos modos y descomposición de valores simples (con gráficos, usando Stata). Me encontré con un gran número de problemas: en Mac OS X, hay problemas con el Java detrás de bibliotecas como Snowball (stemming) o Rgraphviz (gráficos).

¿Podría alguien señalar no paquetes - He mirado tm , wordfish y wordscores y conocer el NLTK - pero investigación, a ser posible con código, sobre datos textuales, que utilice con éxito tm ¿o algo más para analizar datos como debates parlamentarios o documentos legislativos? Parece que no puedo encontrar mucho sobre el tema, y aún menos código del que aprender.

Mi propio proyecto es un debate parlamentario de dos meses, con estas variables informadas en un archivo CSV: sesión parlamentaria, orador, grupo parlamentario, texto de la intervención oral. Busco las divergencias entre los oradores y, sobre todo, entre los grupos parlamentarios en el uso de términos raros y menos raros, por ejemplo, "hablar de seguridad" frente a hablar de "libertades civiles".

7voto

agateau Puntos 898

La tesis doctoral del autor de tm, Ingo Feinerer, de Austria, está escrita en inglés. Los capítulos 7-10 de este documento contienen aplicaciones del paquete tm, con una complejidad creciente.

http://epub.wu.ac.at/1923/

El capítulo 7 presenta una aplicación de tm mediante el análisis de la lista de correo R-devel 2006 lista de correo. El capítulo 8 muestra una aplicación de la minería de textos para comercio electrónico entre empresas y consumidores. El capítulo 9 es una aplicación de tm para investigar el tribunal administrativo supremo austriaco jurisdiccional en materia de tasas e impuestos. [...] . El capítulo 10 muestra una aplicación para la estilometría y la atribución de autoría en el conjunto de datos del Mago de Oz.

Lea todo el documento de principio a fin. Tenga en cuenta, sin embargo, que el documento fue escrito en 2008, y desde entonces ha habido algunos cambios en la API, por ejemplo, la tesis doctoral menciona una función tmMap() que ha sido rebautizado como tm_map() . Así que los ejemplos de código no funcionarán tal cual, no se puede usar cortar y pegar para probarlos.

También puede ir a

http://tm.r-forge.r-project.org/users.html

"En un intento de informar a los nuevos usuarios sobre las aplicaciones tm existentes, este sitio tiene como objetivo proporcionar una lista (alfabética incompleta) de usuarios de tm y sus comentarios. Los usuarios conocidos van desde institutos de investigación, pasando por empresas y particulares. "

y busca en esa página la frase "wrote a paper" y encontrarás muchos enlaces. Sólo he leído uno de los trabajos, "automatic topic detection in song lyrics". Bastante interesante, y divertido.

5voto

Vi0 Puntos 656

Un buen lugar para empezar podría ser el lista de publicaciones en el sitio web de tm como éste:

La lista de referencias al final de cada una de estas publicaciones incluye aplicaciones exitosas de tm que es lo que parece estar buscando. Hay muchos - especialmente si luego sigue las referencias de las referencias.

Por ejemplo, aquí hay uno que puede ser relevante:

Feinerer I, Hornik K (2007). \Text La minería de las jurisdicciones del Tribunal Supremo Administrativo". En C Preisach, H Burkhardt, L Schmidt-Thieme, R Decker (eds.), \Data Análisis, aprendizaje automático Learning, and Applications (Proceedings of the 31st Annual Conference of the Gesellschaft f ur Klassikation e.V., 7{9 de marzo de 2007, Friburgo, Alemania)," Studies in Classication, Data Analysis, and Knowledge Organization. Springer-Verlag.

Buena suerte.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X