Supongamos que dispone de los registros de un servidor web. En estos registros tienes tuplas de este tipo:
user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...
Estas marcas de tiempo representan, por ejemplo, los clics de los usuarios. Ahora, user1
visitarán el sitio varias veces (sesiones) durante el mes, y usted tendrá ráfagas de clics de cada usuario durante cada sesión (suponiendo que cuando un usuario visite su sitio, haga clic en varias páginas).
Supongamos que desea particionar esta ráfaga de clics en las sesiones que los generaron, pero no dispone de ninguna fuente de información adicional, sólo de la lista de marcas de tiempo. Si calcula la distribución de intervalos entre dos clics consecutivos del mismo usuario, obtendrá una distribución de cola larga. Intuitivamente, buscarías un "parámetro de corte", por ejemplo N segundos, en el que si timestamp_{i+1} - timestamp{i} > N
entonces su timestamp_{i+1}
es el inicio de la nueva sesión.
El problema es que, en realidad, esta distribución es una mezcla de dos variables: X = "intervalo entre dos clics consecutivos en la misma sesión" e Y = "intervalo entre el último clic de la sesión anterior y el primero de la nueva".
La pregunta es, ¿cómo estimar este N, que divide las dos distribuciones (con un poco de solapamiento, posiblemente) sólo mirando la ráfaga de clics?