Como parte de mis estudios, estoy tratando de agrupar las co-ocurrencias de URLs y etiquetas en los datos de Delicious. Encontré un método prometedor para esto en un artículo llamado " Semántica emergente de las folcsonomías: Un estudio cuantitativo " (páginas 6-13). Se utilizó un Modelo de Mezcla Separable (SMM, descrito en el documento " Modelos estadísticos para datos de coocurrencia " páginas 2-4) para modelar los datos y un algoritmo EM adaptado para ajustar los datos conocidos al modelo.
He codificado el algoritmo con Java y lo he ejecutado con un poco de datos reales de Delicious. Por desgracia, los resultados no parecían correctos. Los resultados mostraron que cada etiqueta tenía igual (aunque variando de etiqueta a etiqueta) posibilidad de pertenecer a cada concepto.
Ahora bien, aunque este problema podría deberse a que simplemente codifiqué mal el algoritmo EM adaptado, también me gustaría descartar la posibilidad de que las variables se hayan inicializado incorrectamente. Esta vez, como no conocía ninguna forma mejor de hacerlo, simplemente inicialicé todas las $R_{r\alpha}$ (variables que denotan la posibilidad de co-ocurrencia $r$ de haber planteado desde el concepto $\alpha$ ) sean iguales, $1/K$ ( $K$ siendo el número de conceptos).
Mi pregunta es doble.
¿Podrían los resultados planos provenir de la inicialización de la variable plana?
¿Cómo debo inicializar las variables del algoritmo EM en este caso?