7 votos

Algoritmos de agrupación de documentos por palabras y frases similares

Estoy trabajando en un proyecto en el que intento tomar un par de documentos y encontrar y agrupar (cluster) palabras y frases similares entre ellos.

¿Qué algoritmo podría resolver este tipo de problema? Sé que es una pregunta muy mundana y probablemente subjetiva, pero soy nuevo en el tema de la agrupación y todavía estoy tratando de abrirme camino en el vocabulario.

Se agradecerá su ayuda.

4voto

Oliver Puntos 183

De entrada, es posible que quieras mirar varias distancias de cuerda. La única que conozco es la distancia Levenshtein, que es bastante rudimentaria. Podrías aplicarla en frases o oraciones.

Es posible que también quiera echar un vistazo a algunas técnicas de procesamiento del lenguaje natural, como la separación de la raíz y la tokenización de sus datos antes de ejecutar cualquier algoritmo de agrupación en ellos. Si te gusta Python, te recomiendo nltk que tiene muchos paquetes para el procesamiento del lenguaje natural. Incluso puede tener un algoritmo de agrupación o de distancia para usted. Una búsqueda rápida en Google me da este paquete pero nunca lo he utilizado.

Editar: Pensándolo bien, puede que haya entendido mal tu pregunta: ¿estás agrupando documentos o palabras/frases?

2voto

Amadiere Puntos 5606

Para casi cualquier algoritmo de clustering que pueda trabajar con estos datos, será necesario definir primero una función de distancia o similitud. Por lo tanto, es posible que desee buscar en la literatura sobre las funciones de distancia apropiadas para su tarea.

Por ejemplo, la distancia del coseno en una representación vectorial normalizada TF-IDF.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X