Estoy trabajando en un problema de seguros de vida: tratando de simular el monto total de reclamaciones en un año. Para hacer esto, tengo un registro para cada persona que contiene su cantidad de seguro y una estimación de la probabilidad de que presenten una reclamación durante el próximo año. He realizado miles de simulaciones de un año y he desarrollado el rango de resultados.
Desafortunadamente, la experiencia histórica real es mucho más volátil de lo que mi análisis sugiere. Casi cada año parece ser de 1 cada 100 años. Utilicé la distribución binomial (pensando simplistamente que una persona presenta o no una reclamación), pero me han aconsejado que mis datos sufren de sobredispersión. Eso suena posible, porque obviamente no conocemos realmente la probabilidad precisa de cada persona de presentar una reclamación. Nuestra estimación es incorrecta para cada individuo en particular, pero razonablemente precisa para cada subgrupo. La solución recomendada fue utilizar una distribución binomial negativa para que la varianza pueda ser calibrada por separado de la media.
Ciertamente esta propiedad sería útil, pero la literatura sobre la distribución binomial negativa se centra en aplicaciones de conteo de éxitos y fracasos. Eso no parece relevante para lo que estoy tratando de hacer. ¿Realmente es esta una buena distribución de probabilidad para usar en este contexto, y por qué?