Me gustaría estudiar eventos raros en una población finita. Como no estoy seguro de cuál es la estrategia más adecuada, agradecería consejos y referencias relacionadas con este asunto, aunque soy consciente de que ya ha sido ampliamente tratado. Es que no sé muy bien por dónde empezar.
Mi problema es de ciencias políticas y tengo una población finita de 515.843 registros. Están asociados a una variable dependiente binaria con 513.334 "0 "s y 2.509 "1 "s. Puedo considerar los "1" como eventos raros, ya que sólo representan el 0,49% de la población.
Tengo un conjunto de unas 10 variables independientes con las que me gustaría construir un modelo para explicar la presencia de "1". Como muchos de nosotros, he leído Artículo de King y Zeng de 2001 sobre la corrección de eventos raros. Su enfoque fue utilizar un diseño de casos y controles para reducir el número de "0", y luego aplicar la corrección al intercepto.
Sin embargo, este puesto dice que el argumento de King & Zeng no era necesario si ya había recogido mis datos sobre toda la población, como es mi caso. Por lo tanto, tengo que utilizar el modelo logit clásico. Por desgracia para mí, aunque obtengo buenos coeficientes significativos, mi modelo es completamente inútil en términos de predicción (no logra predecir el 99,48% de mis "1").
Después de leer el artículo de King y Zeng, quise probar un diseño de casos y controles y seleccioné sólo el 10% de los "0" con todos los "1". Con casi los mismos coeficientes, el modelo fue capaz de predecir casi un tercio de los "1" cuando se aplicó a toda la población. Por supuesto, hay muchos falsos positivos.
Por lo tanto, tengo tres preguntas que me gustaría hacerle:
1) Si el planteamiento de King y Zeng es perjudicial cuando se tiene pleno conocimiento de la población, ¿por qué utilizan una situación en la que conocen a la población en su artículo para demostrar su punto?
2) Si tengo coeficientes buenos y significativos en una regresión logit, pero un poder predictivo muy pobre, ¿significa eso que la variación explicada por estas variables no tiene sentido?
3) ¿Cuál es el mejor enfoque para hacer frente a los eventos raros? He leído sobre el modelo relogit de King, el enfoque de Firth, el logit exacto, etc. Debo confesar que estoy perdido entre todas estas soluciones.