8 votos

¿Cómo iniciar un análisis de palabras clave de una bibliografía y detectar correlaciones?

(Estoy un poco fuera de mi zona de confort, así que disculpas si este está mal redactada, o fuera de tema)

Tengo una base de datos bibliográfica, containign detalles de alrededor de 1200 diferentes papeles, libros, sitios web, etc, todos con diferentes detalles, incluyendo palabras clave y un resumen. Quiero de alguna manera el análisis de la base de datos y producir algunos gráficos que muestran las correlaciones entre las diferentes palabras clave. (como "droga" es a menudo presente, ya sea con la "farmacología" o "ensayo").

Lo ideal sería que se en R, pero el consejo general también serán bienvenidos. (He visto esta pregunta/respuesta que despertó mi interés, y este mapa de calor gráfico también parecen estar relacionados)

Mi base de datos podría ser en bibtex, o que pueden ser convertidas a texto sin formato.

5voto

Rytis Puntos 683

así que usted tiene un documento de x palabras clave de la matriz que representa básicamente un bipartito gráfico (o dos-modo de red, dependiendo de sus antecedentes culturales) con los bordes entre los documentos y etiquetas. Si usted no está interesado en documentos individuales - como yo lo entiendo a usted -, puede crear una red de palabras clave mediante el recuento del número de cooccurrences entre cada palabra clave. Simplemente trazando este gráfico ya pueden darle una buena idea de lo que estos datos parece. Además, usted puede ajustar la visualización si, por ejemplo, la escala y el tamaño de las palabras por el número total de ocurrencias, o (en caso de que usted tiene un montón de palabras clave) introducir un número mínimo de total de apariciones de una palabra clave que aparecen en el primer lugar.

Como una herramienta, sólo puedo recomendar GraphViz , que le permite especificar los gráficos como

keyword1 -- keyword2
keyword1 -- keyword3
keyword1[label="statistics", fontsize=...]

y "compilar" en png, pdf, lo que sea, dando muy buenos resultados (sobre todo si juegas un poco con la configuración de fuente).

1voto

Dori Puntos 1325

Le recomiendo usar Asociación regla de aprendizaje para ello. Le permite encontrar palabras que a menudo ocurren.

Si usted tiene un montón de datos, será mucho más rápido que calcular una matriz de correlación.

Ver mi serie de videos sobre la minería de texto aquí. Incluye un tutorial sobre las reglas de Asociación para el texto.

1voto

Eric Davis Puntos 1542

Yo también estoy fuera de mi área de especialización, pero asumiendo que desea utilizar R, aquí hay un par de pensamientos.

  • Hay un bibtex paquete en R para la importación de archivos bibtex.
  • Diversas funciones de caracteres podría ser utilizado para extraer las palabras clave.
  • Los datos que suena un poco como la dos-modo de red, lo cual podría significar que los paquetes como sna y igraph son útiles.
  • Parcelas de 2d el escalamiento multidimensional también puede ser útil también en la visualización de similitudes (por ejemplo, basada en la co-ocurrencia o alguna otra medida) entre las palabras (aquí un tutorial).

0voto

abyx Puntos 15304

Usted podría intentar emplear la teoría y la praxis del análisis de asociación o el análisis de la cesta de la compra a su problema (acabo de leer "elementos" como "palabras clave" / "cita de referencia" y "cesta de la compra" como "artículo de la revista").

Descargo de responsabilidad - es sólo una idea, no hice nada como eso mismo. Sólo mi 2Cents.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X