13 votos

¿Cómo podemos predecir los acontecimientos raros?

Estoy trabajando en el desarrollo de un modelo de predicción del riesgo de los seguros. Estos modelos son de "eventos raros", como la predicción de ausencia de aerolíneas, la detección de fallos de hardware, etc. Cuando preparé mi conjunto de datos, intenté aplicar la clasificación, pero no pude obtener clasificadores útiles debido a la alta proporción de casos negativos.

No tengo mucha experiencia en estadística y modelización de datos más allá de un curso de estadística en el instituto, así que estoy algo confuso.

Como primera idea, he pensado en utilizar un modelo de proceso de Poisson no homogéneo. Lo clasifiqué en base a los datos del evento (fecha, lat, lon) para obtener una buena estimación de la probabilidad de un riesgo a una hora concreta en un día concreto en un lugar concreto.

Me gustaría saber, ¿cuáles son las metodologías/algoritmos para predecir eventos raros?
¿Qué recomienda como enfoque para abordar este problema?

10voto

John Richardson Puntos 1197

El enfoque estándar es " teoría del valor extremo ", hay un excelente libro sobre el tema por Stuart Coles (aunque el precio actual parece más bien, err ... extremo).

La razón por la que es poco probable que se obtengan buenos resultados utilizando métodos de clasificación o regresión es que estos métodos suelen depender de la predicción de la media condicional de los datos, y los eventos extremos suelen estar causados por la conjunción de factores "aleatorios" que se alinean todos en la misma dirección, por lo que se encuentran en las colas de la distribución de resultados plausibles, que suelen estar muy lejos de la media condicional. Lo que se puede hacer es predecir toda la distribución condicional, en lugar de sólo su media, y obtener alguna información sobre la probabilidad de un evento extremo integrando la cola de la distribución por encima de algún umbral. Esto funcionó bien en una aplicación sobre reducción estadística de las precipitaciones intensas .

1 votos

¿Existe alguna implementación de esta teoría en python?

0 votos

Lo siento, no programo en Python (todavía) así que no puedo ayudar en eso.

0 votos

Lo siento, no entiendo bien tu razonamiento. Digamos que tienes r.v. $y$ y predictores $x_1,\dots, x_n$ ; está interesado en predecir cuándo $y>Y_0$ lo que ocurre raramente. ¿Por qué no se puede ajustar algún modelo de clasificación estándar para estimar la probabilidad condicional $P(y>Y_0|x_1,\dots,x_n)$ - digamos, ¿regresión logística? Si lo he entendido bien, está diciendo que la modelización de la media condicional $E(y|x_1,\dots,x_n)$ no nos da información útil sobre el evento extremo $y>Y_0$ Esto es cierto. Pero aún podemos estimar $P(y>Y_0|x1,\dots,x_n)$ utilizando la clasificación estándar sin la teoría del valor extremo, ¿no?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X