¿Cómo el peso de las palabras en el título, cuerpo de texto y de los enlaces de manera diferente en el documento de agrupación?

Question

¿Cómo el peso de las palabras en el título, cuerpo de texto y de los enlaces de manera diferente en el documento de agrupación?

Preguntado el 18 de Febrero, 2012: Cuando se hizo la pregunta
460 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Actualmente estoy tratando de jugar con NLTK y scikits-aprender para la agrupación de texto artículos de noticias.

¿Cómo puedo extender los modelos para agregar la escala de características de un documento (me estoy haciendo un preprocesamiento en el texto de los artículos), por lo que puede experimentar mediante la ponderación ?

Estoy empezando a partir de este esquema de documento de la agrupación:

https://github.com/ogrisel/scikit-learn/blob/master/examples/document_clustering.py

¿Cómo me acerco a este problema? Agrego desarrollar heurísticas para ayudar a ajustar los parámetros doy kmeans?

una. Título b. Cuerpo De Texto c. Los enlaces (texto de anclaje y enlace)

Gracias.

Preguntado el 18 de Febrero, 2012 por Gerald Krug

Answer 1

1 Respuestas

Answer 2

1voto

166_MMX Puntos 481

Una simple (pero a menudo eficaz) la solución es simplemente duplicar las diferentes secciones, de acuerdo a los pesos. Por ejemplo, si se incluyen dos copias del título y de los enlaces y una copia del cuerpo, entonces el plazo de frecuencias de los términos en los títulos y los enlaces que se duplicó.

Respondido el 31 de Julio, 2015 por 166_MMX (481 Puntos )

¿Cómo el peso de las palabras en el título, cuerpo de texto y de los enlaces de manera diferente en el documento de agrupación?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo el peso de las palabras en el título, cuerpo de texto y de los enlaces de manera diferente en el documento de agrupación?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: