La solución tradicional a este problema es el uso de la representación vectorial de las noticias y, a continuación, el clúster de los vectores. Los vectores son matrices donde cada entrada representa una palabra o palabra de la clase. El valor asociado a cada palabra será la tf-idf de peso. Este valor disminuye hasta el más frecuente de la palabra en el documento y abajo de la más frecuente de la palabra es en toda la colección de documentos.
Usted puede pensar de los títulos de los documentos, pero relacionado con el título de las noticias puede ser un poco arriesgado para la agrupación de historias similares. El problema es que mediante el recuento de palabras que se están desechando toda la información sobre el orden de las palabras. Textos más largos compensar esa pérdida de información mediante la distinción de los documentos por el vocabulario utilizado (artículos mencionando finanzas, dinero, ... están más cerca unos de otros que los que mencionar ergodic, de Poincaré).
Si quieres seguir a los títulos, una idea es pensar de pares de palabras como las palabras que se usan en la representación vectorial. Así que para el título de El águila ha aterrizado, habría que pensar de el águila, águila, ha aterrizado. como las "palabras".
Para descubrir cuando un clúster se ha convertido en mucho más grande o diferente de la de otros que se necesitan para desarrollar un procedimiento de decisión.