8 votos

Clúster de datos de seguimiento de clics

Recientemente he entrado en el reino de aprendizaje de máquina y un proyecto en el que estoy trabajando me obliga a los usuarios del clúster basado en el orden en que han visitado las páginas web de un sitio web. Tengo los datos en la forma de:

['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...]

Donde cada número es una categoría/página que el usuario visitó. Además, la longitud de los datos de cada usuario no es el mismo es decir, algunos usuarios visitan más páginas de las que otros.

Me doy cuenta de que esto es muy ambiguo y la definición de similitud es duro. Traté de seguir el ejemplo de este trabajo de investigación y para ser honesto, mucho de eso se fue por encima de mi cabeza.

Necesito ayuda en la forma de abordar este problema y estoy abierto a nuevas ideas y sugerencias.

3voto

Miroslav Sabo Puntos 1548

Es una buena pregunta con muchas aplicaciones prácticas.

Sus datos son secuenciales, de modo que necesitamos una medida de similitud entre cualquier par de secuencias. Recomiendo Levensthein distancia , ya que es muy intuitiva y muy bien definido. Ver también este bonito tesis de licenciatura , con una visión de más medidas para datos secuenciales.

Finalmente, si uno dispone de las distancias entre todos los pares de secuencias, se puede utilizar cualquier algoritmo de clustering que toma distancia de la matriz como de entrada (por ejemplo, cualquier algoritmo jerárquico).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X