Me interesa encontrar grupos de palabras / temas en un texto . Estoy intentando obtener más información sobre posibles enfoques. La página de Wikipedia sobre agrupación de documentos parece ofrecer una visión general útil (aunque estoy seguro de que este artículo tiene sus limitaciones y me encantaría que me indicaran otros recursos).
En un proyecto de investigación, he estado utilizando un enfoque de agrupación en dos pasos (jerárquico y luego k-means) con cierto grado de éxito, pero estoy interesado en comprender mejor el panorama.
El artículo de Wikipedia al que se hace referencia más arriba distingue entre enfoques "duros" y "blandos". Según él, los enfoques duros, como los jerárquicos y k-means, asignan los documentos a un único clúster, mientras que los enfoques suaves (el artículo dice que ambos enfoques son similares) asignan los documentos a un único clúster. Asignación latente de Drichlet y modelos temáticos son ejemplos de este enfoque) asignan una mezcla de clusters a un documento. Como advertencia, no estoy seguro de cómo Latent Drichlet Allocation y los modelos temáticos pueden considerarse enfoques de agrupación (o si lo son), pero mi pregunta es, ¿cuáles son las ventajas de los enfoques "duros" y "blandos"?
Resumiendo:
- ¿Cuáles son las ventajas de utilizar algoritmos de agrupación jerárquica y/o k-means para identificar grupos de palabras/temas en un texto?
- ¿Cuáles son las ventajas de utilizar la asignación latente de Drichlet o modelos temáticos para identificar grupos de palabras o temas en un texto?