Agrupación de elementos por recuento de accesos en sesiones

Question

Agrupación de elementos por recuento de accesos en sesiones

Preguntado el 1 de Mayo, 2011: Cuando se hizo la pregunta
211 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo un conjunto de sesiones y urls a las que se ha accedido en cada una de estas sesiones y frecuencias con las que se ha accedido. Las he puesto en una representación tipo matriz.

Imagina que tengo la siguiente "Matriz de páginas vistas":

COLUMN HEADINGS

books placement resources br aca

Cada fila representa una sesión.

He aquí un ejemplo de los registros:

4 5 0 2 2
1 2 1 7 3
1 3 6 1 6

guardado en un .txt archivo

¿Puedo dar esto como entrada a un programa k-means y obtener clusters basados en la mayor frecuencia de aparición? ¿Cómo se utiliza?

Si no es k-means, ¿qué otro método de agrupación puedo utilizar?

Preguntado el 1 de Mayo, 2011 por Mike Hall

Answer 1

2 Respuestas

Answer 2

5voto

rohith Puntos 118

Permítame intentar responder a sus preguntas por partes:

1) Puede realizar un análisis de conglomerados k-mean utilizando el conjunto de datos. Pero la forma de utilizar el resultado del análisis de conglomerados se basará en el problema que usted está tratando de resolver utilizando el análisis de conglomerados. Yo utilicé el análisis cluster utilizando datos clickstream. Pero mi conjunto de datos era un poco diferente del tuyo. Tomé variables (columnas) como páginas vistas, tiempo en la página, tasa de rebote, etc y urls como variables de fila. La idea era tratar de segmentar las urls en diferentes grupos y luego tratar de encontrar los atributos significativos de estos grupos particulares.

2) Existen principalmente 2 tipos de análisis de conglomerados: jerárquico y por partición. K-mean se incluye dentro de la agrupación por particiones. La dirección Libro ofrece información detallada sobre las distintas técnicas de agrupación disponibles.

Respondido el 1 de Mayo, 2011 por rohith (118 Puntos )

Answer 3

2voto

Usuario no registrado Puntos 0

Entonces, teniendo en cuenta tu comentario, ¿quieres hacer clusters de entradas que agrupen aquellas entradas que fueron frecuentemente co-accesionadas?

Si es así, hay que decidir cómo medir este co-acceso, es decir, transformarlo en una disimilitud, y esta es una tarea bastante no trivial.
La medida simple consiste en contar, para cada par de entradas, las sesiones en las que se accedió a ambas y dividir por el recuento de sesiones en las que se accedió a cualquiera de ellas. La matriz resultante será de similitud uno, por lo que puede, por ejemplo, restar cada celda de uno y alimentar el resultado al algoritmo de agrupación de su elección.

Por supuesto, esta medida no tiene en cuenta los recuentos de accesos durante la sesión, por lo que probablemente necesitará algo más complejo; una idea (simple extensión de la trivial) puede ser sumar el mínimo menor de recuentos de cada sesión cuando un par particular co-ocurre y dividir el total por la suma del número total de accesos a ambas entradas.
No obstante, debe intentar realizar esta medida por su cuenta teniendo en cuenta la especificidad de este problema concreto.

Respondido el 1 de Mayo, 2011 por Usuario no registrado (0 Puntos )

Agrupación de elementos por recuento de accesos en sesiones

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Agrupación de elementos por recuento de accesos en sesiones

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: