Actualmente estoy tratando de jugar con NLTK y scikits-aprender para la agrupación de texto artículos de noticias.
¿Cómo puedo extender los modelos para agregar la escala de características de un documento (me estoy haciendo un preprocesamiento en el texto de los artículos), por lo que puede experimentar mediante la ponderación ?
Estoy empezando a partir de este esquema de documento de la agrupación:
https://github.com/ogrisel/scikit-learn/blob/master/examples/document_clustering.py
¿Cómo me acerco a este problema? Agrego desarrollar heurísticas para ayudar a ajustar los parámetros doy kmeans?
una. Título b. Cuerpo De Texto c. Los enlaces (texto de anclaje y enlace)
Gracias.