Estoy trabajando en el desarrollo de un modelo de predicción del riesgo de los seguros. Estos modelos son de "eventos raros", como la predicción de ausencia de aerolíneas, la detección de fallos de hardware, etc. Cuando preparé mi conjunto de datos, intenté aplicar la clasificación, pero no pude obtener clasificadores útiles debido a la alta proporción de casos negativos.
No tengo mucha experiencia en estadística y modelización de datos más allá de un curso de estadística en el instituto, así que estoy algo confuso.
Como primera idea, he pensado en utilizar un modelo de proceso de Poisson no homogéneo. Lo clasifiqué en base a los datos del evento (fecha, lat, lon) para obtener una buena estimación de la probabilidad de un riesgo a una hora concreta en un día concreto en un lugar concreto.
Me gustaría saber, ¿cuáles son las metodologías/algoritmos para predecir eventos raros?
¿Qué recomienda como enfoque para abordar este problema?