Tengo un conjunto de sesiones y urls a las que se ha accedido en cada una de estas sesiones y frecuencias con las que se ha accedido. Las he puesto en una representación tipo matriz.
Imagina que tengo la siguiente "Matriz de páginas vistas":
COLUMN HEADINGS
books placement resources br aca
Cada fila representa una sesión.
He aquí un ejemplo de los registros:
4 5 0 2 2
1 2 1 7 3
1 3 6 1 6
guardado en un .txt
archivo
¿Puedo dar esto como entrada a un programa k-means y obtener clusters basados en la mayor frecuencia de aparición? ¿Cómo se utiliza?
Si no es k-means, ¿qué otro método de agrupación puedo utilizar?