5 votos

Ventajas de los algoritmos de agrupación y de los modelos temáticos / de asignación de Dirichlet latente para encontrar agrupaciones de palabras / temas en el texto.

Me interesa encontrar grupos de palabras / temas en un texto . Estoy intentando obtener más información sobre posibles enfoques. La página de Wikipedia sobre agrupación de documentos parece ofrecer una visión general útil (aunque estoy seguro de que este artículo tiene sus limitaciones y me encantaría que me indicaran otros recursos).

En un proyecto de investigación, he estado utilizando un enfoque de agrupación en dos pasos (jerárquico y luego k-means) con cierto grado de éxito, pero estoy interesado en comprender mejor el panorama.

El artículo de Wikipedia al que se hace referencia más arriba distingue entre enfoques "duros" y "blandos". Según él, los enfoques duros, como los jerárquicos y k-means, asignan los documentos a un único clúster, mientras que los enfoques suaves (el artículo dice que ambos enfoques son similares) asignan los documentos a un único clúster. Asignación latente de Drichlet y modelos temáticos son ejemplos de este enfoque) asignan una mezcla de clusters a un documento. Como advertencia, no estoy seguro de cómo Latent Drichlet Allocation y los modelos temáticos pueden considerarse enfoques de agrupación (o si lo son), pero mi pregunta es, ¿cuáles son las ventajas de los enfoques "duros" y "blandos"?

Resumiendo:

  • ¿Cuáles son las ventajas de utilizar algoritmos de agrupación jerárquica y/o k-means para identificar grupos de palabras/temas en un texto?
  • ¿Cuáles son las ventajas de utilizar la asignación latente de Drichlet o modelos temáticos para identificar grupos de palabras o temas en un texto?

3voto

Un algoritmo de agrupación clásico (como k-means o la agrupación jerárquica) proporciona una etiqueta por documento.

El modelado de temas proporciona una composición probabilística del documento (de modo que un documento tiene un conjunto de etiquetas ponderadas). Además, los temas son distribuciones probabilísticas de palabras.

Tenga en cuenta que ambos procedimientos son de aprendizaje no supervisado y distan mucho de ser perfectos, por muy impresionantes que parezcan los resultados a primera vista. Aplíquelos primero a un conjunto de datos que entienda bien.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X