Ejemplos de minería de textos con R (paquete tm)

Question

Ejemplos de minería de textos con R (paquete tm)

Preguntado el 29 de Junio, 2011: Cuando se hizo la pregunta
7272 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Me pasé tres días haciendo pinitos con tm después de leer un borrador de un amigo en el que exploraba un corpus de texto con UCINET, mostrando nubes de texto, gráficos de red de dos modos y descomposición de valores simples (con gráficos, usando Stata). Me encontré con un gran número de problemas: en Mac OS X, hay problemas con el Java detrás de bibliotecas como Snowball (stemming) o Rgraphviz (gráficos).

¿Podría alguien señalar no paquetes - He mirado tm , wordfish y wordscores y conocer el NLTK - pero investigación, a ser posible con código, sobre datos textuales, que utilice con éxito tm ¿o algo más para analizar datos como debates parlamentarios o documentos legislativos? Parece que no puedo encontrar mucho sobre el tema, y aún menos código del que aprender.

Mi propio proyecto es un debate parlamentario de dos meses, con estas variables informadas en un archivo CSV: sesión parlamentaria, orador, grupo parlamentario, texto de la intervención oral. Busco las divergencias entre los oradores y, sobre todo, entre los grupos parlamentarios en el uso de términos raros y menos raros, por ejemplo, "hablar de seguridad" frente a hablar de "libertades civiles".

Preguntado el 29 de Junio, 2011 por curiousguy

Answer 1

2 Respuestas

Answer 2

7voto

agateau Puntos 898

La tesis doctoral del autor de tm, Ingo Feinerer, de Austria, está escrita en inglés. Los capítulos 7-10 de este documento contienen aplicaciones del paquete tm, con una complejidad creciente.

http://epub.wu.ac.at/1923/

El capítulo 7 presenta una aplicación de tm mediante el análisis de la lista de correo R-devel 2006 lista de correo. El capítulo 8 muestra una aplicación de la minería de textos para comercio electrónico entre empresas y consumidores. El capítulo 9 es una aplicación de tm para investigar el tribunal administrativo supremo austriaco jurisdiccional en materia de tasas e impuestos. [...] . El capítulo 10 muestra una aplicación para la estilometría y la atribución de autoría en el conjunto de datos del Mago de Oz.

Lea todo el documento de principio a fin. Tenga en cuenta, sin embargo, que el documento fue escrito en 2008, y desde entonces ha habido algunos cambios en la API, por ejemplo, la tesis doctoral menciona una función tmMap() que ha sido rebautizado como tm_map() . Así que los ejemplos de código no funcionarán tal cual, no se puede usar cortar y pegar para probarlos.

También puede ir a

http://tm.r-forge.r-project.org/users.html

"En un intento de informar a los nuevos usuarios sobre las aplicaciones tm existentes, este sitio tiene como objetivo proporcionar una lista (alfabética incompleta) de usuarios de tm y sus comentarios. Los usuarios conocidos van desde institutos de investigación, pasando por empresas y particulares. "

y busca en esa página la frase "wrote a paper" y encontrarás muchos enlaces. Sólo he leído uno de los trabajos, "automatic topic detection in song lyrics". Bastante interesante, y divertido.

Respondido el 26 de Enero, 2013 por agateau (898 Puntos )

Answer 3

5voto

Vi0 Puntos 656

Un buen lugar para empezar podría ser el lista de publicaciones en el sitio web de tm como éste:

Infraestructura de minería de textos en R. http://www.jstatsoft.org/v25/i05

La lista de referencias al final de cada una de estas publicaciones incluye aplicaciones exitosas de tm que es lo que parece estar buscando. Hay muchos - especialmente si luego sigue las referencias de las referencias.

Por ejemplo, aquí hay uno que puede ser relevante:

Feinerer I, Hornik K (2007). \Text La minería de las jurisdicciones del Tribunal Supremo Administrativo". En C Preisach, H Burkhardt, L Schmidt-Thieme, R Decker (eds.), \Data Análisis, aprendizaje automático Learning, and Applications (Proceedings of the 31st Annual Conference of the Gesellschaft f ur Klassikation e.V., 7{9 de marzo de 2007, Friburgo, Alemania)," Studies in Classication, Data Analysis, and Knowledge Organization. Springer-Verlag.

Buena suerte.

Respondido el 12 de Agosto, 2011 por Vi0 (656 Puntos )

Ejemplos de minería de textos con R (paquete tm)

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Ejemplos de minería de textos con R (paquete tm)

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: