Digamos que observamos un evento el 1 de enero de 2005, y que observamos los eventos desde el año 2000. ¿Cuál es la mejor estimación de la distribución de Poisson?
Un enfoque es establecer la intensidad $\lambda=1/18$ al año. Se trata de una estimación MLE de Poisson, ya que han pasado 18 años y sólo se ha observado un evento.
Otro enfoque parece ser el ajuste de la distribución exponencial al tiempo de llegada. ¿Conducen a la misma estimación?
ACTUALIZACIÓN
En mi problema la estimación de la intensidad de Poisson está condicionada a la observación de un único evento. Este es un factor importante, porque no es obvio que no estropee el MLE habitual para Poisson.
He realizado una simulación en la que se extraen intensidades aleatorias, y luego se extraen frecuencias aleatorias a partir de estas intensidades. Sólo miramos las frecuencias iguales a uno de cada 18 años. Finalmente, utilizamos el estimador de intensidad que es igual a la frecuencia observada, como en un MLE habitual para Poisson, y lo comparamos con la intensidad verdadera.
Sospeché que para los eventos raros, cuando el evento se observó precisamente una vez en un período de la muestra, podría haber un mejor estimador de la intensidad de Poisson que la frecuencia observada. Sin embargo, esta simulación muestra un sesgo nulo de la MLE de Poisson habitual.
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
ns = 100000
T = 10
lam = np.random.gamma(1,1/T,ns) # random intensities ~1/18 (per year)
obsf = np.random.poisson(lam*T,ns) # observe frequencies for 18 years
plt.hist(obsf)
plt.title('random intensities')
plt.show()
sidx = np.where(obsf==1)[0] # we only look at trials where 1 event happened in 18 years
err = (obsf[sidx]/T - lam[sidx]) # error when intensity estimator is set to observed frequency
print(stats.describe(err))
plt.hist(err)
plt.title('errors')
plt.show()
DescribeResult(nobs=25146, minmax=(-0.30917753984994045, 0.055486021558327742), mean=-0.00044121203771743959, variance=0.0015661042110224508, skewness=-1.434031238643681, kurtosis=2.993433694497429)
ACTUALIZACIÓN 2
Utilicé Gamma como la distribución de parámetros simulada. Es injusto, porque Gama es una previa de Poisson. Usaré alguna otra distribución.