Algoritmos de agrupación de documentos por palabras y frases similares

Question

Algoritmos de agrupación de documentos por palabras y frases similares

Preguntado el 16 de Marzo, 2012: Cuando se hizo la pregunta
1515 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy trabajando en un proyecto en el que intento tomar un par de documentos y encontrar y agrupar (cluster) palabras y frases similares entre ellos.

¿Qué algoritmo podría resolver este tipo de problema? Sé que es una pregunta muy mundana y probablemente subjetiva, pero soy nuevo en el tema de la agrupación y todavía estoy tratando de abrirme camino en el vocabulario.

Se agradecerá su ayuda.

Preguntado el 16 de Marzo, 2012 por Etan

Answer 1

2 Respuestas

Answer 2

4voto

Oliver Puntos 183

De entrada, es posible que quieras mirar varias distancias de cuerda. La única que conozco es la distancia Levenshtein, que es bastante rudimentaria. Podrías aplicarla en frases o oraciones.

Es posible que también quiera echar un vistazo a algunas técnicas de procesamiento del lenguaje natural, como la separación de la raíz y la tokenización de sus datos antes de ejecutar cualquier algoritmo de agrupación en ellos. Si te gusta Python, te recomiendo nltk que tiene muchos paquetes para el procesamiento del lenguaje natural. Incluso puede tener un algoritmo de agrupación o de distancia para usted. Una búsqueda rápida en Google me da este paquete pero nunca lo he utilizado.

Editar: Pensándolo bien, puede que haya entendido mal tu pregunta: ¿estás agrupando documentos o palabras/frases?

Respondido el 16 de Marzo, 2012 por Oliver (183 Puntos )

Answer 3

2voto

Amadiere Puntos 5606

Para casi cualquier algoritmo de clustering que pueda trabajar con estos datos, será necesario definir primero una función de distancia o similitud. Por lo tanto, es posible que desee buscar en la literatura sobre las funciones de distancia apropiadas para su tarea.

Por ejemplo, la distancia del coseno en una representación vectorial normalizada TF-IDF.

Respondido el 17 de Marzo, 2012 por Amadiere (5606 Puntos )

Algoritmos de agrupación de documentos por palabras y frases similares

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Algoritmos de agrupación de documentos por palabras y frases similares

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: