4 votos

Agrupación de elementos por recuento de accesos en sesiones

Tengo un conjunto de sesiones y urls a las que se ha accedido en cada una de estas sesiones y frecuencias con las que se ha accedido. Las he puesto en una representación tipo matriz.

Imagina que tengo la siguiente "Matriz de páginas vistas":

COLUMN HEADINGS

books placement resources br aca

Cada fila representa una sesión.

He aquí un ejemplo de los registros:

4 5 0 2 2
1 2 1 7 3
1 3 6 1 6

guardado en un .txt archivo

¿Puedo dar esto como entrada a un programa k-means y obtener clusters basados en la mayor frecuencia de aparición? ¿Cómo se utiliza?

Si no es k-means, ¿qué otro método de agrupación puedo utilizar?

5voto

rohith Puntos 118

Permítame intentar responder a sus preguntas por partes:

1) Puede realizar un análisis de conglomerados k-mean utilizando el conjunto de datos. Pero la forma de utilizar el resultado del análisis de conglomerados se basará en el problema que usted está tratando de resolver utilizando el análisis de conglomerados. Yo utilicé el análisis cluster utilizando datos clickstream. Pero mi conjunto de datos era un poco diferente del tuyo. Tomé variables (columnas) como páginas vistas, tiempo en la página, tasa de rebote, etc y urls como variables de fila. La idea era tratar de segmentar las urls en diferentes grupos y luego tratar de encontrar los atributos significativos de estos grupos particulares.

2) Existen principalmente 2 tipos de análisis de conglomerados: jerárquico y por partición. K-mean se incluye dentro de la agrupación por particiones. La dirección Libro ofrece información detallada sobre las distintas técnicas de agrupación disponibles.

2voto

Entonces, teniendo en cuenta tu comentario, ¿quieres hacer clusters de entradas que agrupen aquellas entradas que fueron frecuentemente co-accesionadas?

Si es así, hay que decidir cómo medir este co-acceso, es decir, transformarlo en una disimilitud, y esta es una tarea bastante no trivial.
La medida simple consiste en contar, para cada par de entradas, las sesiones en las que se accedió a ambas y dividir por el recuento de sesiones en las que se accedió a cualquiera de ellas. La matriz resultante será de similitud uno, por lo que puede, por ejemplo, restar cada celda de uno y alimentar el resultado al algoritmo de agrupación de su elección.

Por supuesto, esta medida no tiene en cuenta los recuentos de accesos durante la sesión, por lo que probablemente necesitará algo más complejo; una idea (simple extensión de la trivial) puede ser sumar el mínimo menor de recuentos de cada sesión cuando un par particular co-ocurre y dividir el total por la suma del número total de accesos a ambas entradas.
No obstante, debe intentar realizar esta medida por su cuenta teniendo en cuenta la especificidad de este problema concreto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X