6 votos

A través de un problema de agrupamiento

Decir que tengo un programa que controla un canal de noticias y como estoy para el monitoreo de la que me gustaría descubrir cuando un montón de historias de salir con una determinada palabra clave en el título. Idealmente quiero saber cuando hay un número inusual de historias agrupado alrededor de la una de la otra.

Estoy totalmente nuevo para el análisis estadístico y me pregunto cómo habría que abordar este problema. ¿Cómo se puede seleccionar qué variables considerar? ¿Qué características del problema afectar su elección de un algoritmo? Entonces, ¿qué algoritmo de elegir y por qué?

Gracias, y si el problema necesita una aclaración, por favor hágamelo saber.

10voto

SkyWalker Puntos 11

Este problema que se está preguntando acerca de la que se conoce como minería de texto!

Hay un par de cosas que usted necesita considerar. Por ejemplo, en la pregunta que usted ha mencionado el uso de palabras clave en los títulos. Uno se puede preguntar: "¿por qué no el texto del artículo en lugar de sólo el título?", lo cual me lleva a la primera consideración: ¿Qué datos se limite a?

En segundo lugar, como la respuesta anterior sugiere, el uso de frecuencias es un gran comienzo. Para tomar el análisis más se puede empezar a buscar en qué palabras se producen con frecuencia juntos! Por ejemplo, la palabra 'feliz' puede ocurrir muy frecuentemente... sin embargo si siempre acompañado por un 'no' sus conclusiones serían muy diferentes!

Hay un muy buen Australiano pieza de software que he utilizado en el pasado llamado Leximancer. Yo aconsejaría a cualquier persona interesada en la minería de texto para echar un vistazo a su sitio y los ejemplos que se han... de la memoria uno de los cuales analiza los discursos de los 2 candidatos presidenciales. Hace algunas muy interesante de leer!

7voto

Scott Cowan Puntos 156

Yo empezaría con una distribución de frecuencia. Recoger de un corpus grande las frecuencias de la palabra y seleccionar inteligentemente las palabras que son palabras clave (no faltas de ortografía, con una muy baja frecuencia y no parada de palabras como "y", "o")

Luego cuando tenga un número de nuevos feeds, comparar su distribución con la distribución que construyen de sus datos de entrenamiento. Ver a las grandes diferencias en las frecuencias y así seleccionar las palabras clave importantes de ese momento.

5voto

DavLink Puntos 101

Usted puede tratar de Análisis Semántico Latente, que básicamente proporciona una manera de representar en un espacio reducido sus feeds de noticias y cualquier término (en su caso, la palabra clave que aparece en el título). Ya que se basa en la Descomposición de Valor Singular, supongo que se puede, a continuación, ser capaz de comprobar si existe una asociación particular entre esos dos atributos. Sé que esto es usado para encontrar los documentos que cumplan un conjunto de criterios específicos, como en la recuperación de información, o para la construcción de un árbol que refleja términos de similitud (como un diccionario), basado en un corpus grande (que aquí juega el papel del concepto de espacio).

Ver para una suave introducción Una Introducción a la Semántica Latente Análisis, por Landauer et al.

Por otra parte, hay un paquete de R que implementa esta técnica, a saber, la lsa.

2voto

gyurisc Puntos 4250

La solución tradicional a este problema es el uso de la representación vectorial de las noticias y, a continuación, el clúster de los vectores. Los vectores son matrices donde cada entrada representa una palabra o palabra de la clase. El valor asociado a cada palabra será la tf-idf de peso. Este valor disminuye hasta el más frecuente de la palabra en el documento y abajo de la más frecuente de la palabra es en toda la colección de documentos.

Usted puede pensar de los títulos de los documentos, pero relacionado con el título de las noticias puede ser un poco arriesgado para la agrupación de historias similares. El problema es que mediante el recuento de palabras que se están desechando toda la información sobre el orden de las palabras. Textos más largos compensar esa pérdida de información mediante la distinción de los documentos por el vocabulario utilizado (artículos mencionando finanzas, dinero, ... están más cerca unos de otros que los que mencionar ergodic, de Poincaré).

Si quieres seguir a los títulos, una idea es pensar de pares de palabras como las palabras que se usan en la representación vectorial. Así que para el título de El águila ha aterrizado, habría que pensar de el águila, águila, ha aterrizado. como las "palabras".

Para descubrir cuando un clúster se ha convertido en mucho más grande o diferente de la de otros que se necesitan para desarrollar un procedimiento de decisión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X