Loading [MathJax]/jax/element/mml/optable/Arrows.js

5 votos

¿Cómo el peso de las palabras en el título, cuerpo de texto y de los enlaces de manera diferente en el documento de agrupación?

Actualmente estoy tratando de jugar con NLTK y scikits-aprender para la agrupación de texto artículos de noticias.

¿Cómo puedo extender los modelos para agregar la escala de características de un documento (me estoy haciendo un preprocesamiento en el texto de los artículos), por lo que puede experimentar mediante la ponderación ?

Estoy empezando a partir de este esquema de documento de la agrupación:

https://github.com/ogrisel/scikit-learn/blob/master/examples/document_clustering.py

¿Cómo me acerco a este problema? Agrego desarrollar heurísticas para ayudar a ajustar los parámetros doy kmeans?

una. Título b. Cuerpo De Texto c. Los enlaces (texto de anclaje y enlace)

Gracias.

1voto

166_MMX Puntos 481

Una simple (pero a menudo eficaz) la solución es simplemente duplicar las diferentes secciones, de acuerdo a los pesos. Por ejemplo, si se incluyen dos copias del título y de los enlaces y una copia del cuerpo, entonces el plazo de frecuencias de los términos en los títulos y los enlaces que se duplicó.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X