Dispongo de un conjunto de datos de 130.000 usuarios de Internet caracterizados por 4 variables que describen el número de sesiones de los usuarios, los lugares visitados, la descarga media de datos y el tiempo de sesión agregados a partir de cuatro meses de actividad.
El conjunto de datos tiene una cola muy pesada. Por ejemplo, un tercio de los usuarios sólo se conectó una vez durante cuatro meses, mientras que seis usuarios tuvieron más de 1000 sesiones.
Quería llegar a una clasificación sencilla de los usuarios, preferiblemente con indicación del número más adecuado de clusters.
¿Hay algo que pueda recomendar como solución?
0 votos
No veo por qué quieres agrupar a tus usuarios sin ninguna aportación subjetiva (me refiero a un comentario que hiciste @reed), dijiste que querías "el número más apropiado de clusters", pero desafortunadamente no tienes un objetivo claro, si quieres agrupar tu población para mostrar algo en particular, deberías decirnos qué quieres mostrar Si quiere que las estadísticas (los datos) le digan lo que quiere mostrar es otro problema :)
0 votos
@robin: gracias por el comentario. no he visto mucha investigación en este campo y la aportación del proveedor de datos fue mínima [hasta ahora no estaban interesados/capaces de investigarlo más a fondo]. después de la exploración inicial de los datos me quedó bastante claro que hay un par de patrones distintivos [ejemplos son los "descargadores intensos" en sólo unos pocos lugares o los "saltadores frecuentes" con muchas sesiones pequeñas en un gran número de lugares]. mi objetivo en esta etapa era tratar de usar los datos en sí mismos para decirme cómo puedo dividirlos mejor y minimizar la aportación subjetiva.