Recientemente he entrado en el reino de aprendizaje de máquina y un proyecto en el que estoy trabajando me obliga a los usuarios del clúster basado en el orden en que han visitado las páginas web de un sitio web. Tengo los datos en la forma de:
['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...]
Donde cada número es una categoría/página que el usuario visitó. Además, la longitud de los datos de cada usuario no es el mismo es decir, algunos usuarios visitan más páginas de las que otros.
Me doy cuenta de que esto es muy ambiguo y la definición de similitud es duro. Traté de seguir el ejemplo de este trabajo de investigación y para ser honesto, mucho de eso se fue por encima de mi cabeza.
Necesito ayuda en la forma de abordar este problema y estoy abierto a nuevas ideas y sugerencias.