He aquí un problema en el que estoy trabajando actualmente, así como el enfoque bayesiano empírico que estoy utilizando. Me gustaría asegurarme de que mi enfoque se basa en la teoría estadística sólida.
Tengo un conjunto de entidades $e=e_1,e_2,...,e_N$ así como los recuentos de llegadas en diferentes periodos de tiempo $t$ para cada entidad $e_i$ , denotado por $y_{e_i, t}$ . He aquí un histograma de estos recuentos de llegadas para todas las entidades en todos los períodos de tiempo de mi conjunto de datos.
La línea rosa es $x=5000$ . Obsérvese que no hay entradas en la primera horquilla, ya que mi conjunto de datos omite todas las entidades cuyo recuento de llegadas está por debajo de un determinado umbral (para simplificar, digamos 3.000 llegadas). La mediana de estos datos también se sitúa en torno a 5000.
Me interesa identificar las entidades de este conjunto de datos cuyos recuentos de llegadas recientes se están acelerando rápidamente dentro de una ventana temporal reciente. Este es un ejemplo de una entidad cuyo recuento de llegadas se ha acelerado, ha alcanzado un máximo y posteriormente ha disminuido.
Para este gráfico, me gustaría resaltar esta entidad alrededor del segundo x-tick, donde sus cuentas aumentan de 5000 a cerca de 15000.
Creo que la estimación empírica bayesiana utilizando un modelo Gamma-Poisson funcionará bien para este problema. Lo mejor es que me guíe por mi algoritmo:
- Para cada entidad $e_i$ Utilizar $Gamma(k=5000, \theta=1)$ como una distribución a priori para los recuentos de llegadas dentro de un conjunto de periodos de tiempo $T = t_a, ... t_b$ . Recuerde que 5000 es la mediana empírica de todos los recuentos de llegadas.
- Observar los recuentos de llegadas $y_{e_i, t}$ para $t \in T$ . Propongo que $y_{e_i, t} \sim Poisson(\lambda_{e_i, T})$ es decir, los recuentos de llegadas son generados por una Poisson que es estacionaria sobre $T$ .
- Por conjugación podemos obtener la posterior de los recuentos de llegada para $e_i$ en $T$ . Es $$p(\lambda_{e_i, T}~|~y_{e_i, t_a},...y_{e_i, t_b}) \sim Gamma(k + \sum_{t \in T} y_{e_i, t}, \frac{\theta}{|T|\theta + 1})$$ donde $|T|$ es el número de períodos de tiempo.
- Luego observo un recuento de llegadas $y_{e_i,t_{b+1}}$ . Este es el siguiente recuento de llegadas de la entidad ${e_i}$ después del período de tiempo $T$ .
- Calcule una puntuación z para este recuento de llegadas utilizando la distribución posterior. Llame a esto $z_{e_i,T}$ .
A continuación, podemos ordenar las entidades según sus puntuaciones z. Las entidades con las puntuaciones z más elevadas son las que más se han desviado de su estimación posterior.
Aquí hay una lista de preguntas que me gustaría responder:
- En primer lugar, y lo más importante: ¿he cometido algún error flagrante?
- ¿Debo modelar los recuentos de llegadas utilizando una distribución diferente? ¿Utilizaría $Gamma(5000, 1)$ ¿como un antecedente?
- ¿Existe un enfoque más sencillo que incorpore las observaciones recientes y utilice los conocimientos previos sobre los recuentos de llegadas?