10 votos

Distribución de cola larga de los hechos temporales

Supongamos que dispone de los registros de un servidor web. En estos registros tienes tuplas de este tipo:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

Estas marcas de tiempo representan, por ejemplo, los clics de los usuarios. Ahora, user1 visitarán el sitio varias veces (sesiones) durante el mes, y usted tendrá ráfagas de clics de cada usuario durante cada sesión (suponiendo que cuando un usuario visite su sitio, haga clic en varias páginas).

Supongamos que desea particionar esta ráfaga de clics en las sesiones que los generaron, pero no dispone de ninguna fuente de información adicional, sólo de la lista de marcas de tiempo. Si calcula la distribución de intervalos entre dos clics consecutivos del mismo usuario, obtendrá una distribución de cola larga. Intuitivamente, buscarías un "parámetro de corte", por ejemplo N segundos, en el que si timestamp_{i+1} - timestamp{i} > N entonces su timestamp_{i+1} es el inicio de la nueva sesión.

El problema es que, en realidad, esta distribución es una mezcla de dos variables: X = "intervalo entre dos clics consecutivos en la misma sesión" e Y = "intervalo entre el último clic de la sesión anterior y el primero de la nueva".

La pregunta es, ¿cómo estimar este N, que divide las dos distribuciones (con un poco de solapamiento, posiblemente) sólo mirando la ráfaga de clics?

2voto

GDR Puntos 138

Debería trazar el logaritmo de los intervalos entre clics en lugar de los valores brutos; esto aplanará su distribución e incluso podría revelar los múltiples modos de su distribución.

Los neurocientíficos han desarrollado enfoques más avanzados para resolver un problema muy similar en la identificación de ráfagas de picos neuronales. Este papel clásico o los muchos otros documentos relacionados en google scholar .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X