33 votos

Estrategia para tratar los eventos raros regresión logística

Me gustaría estudiar eventos raros en una población finita. Como no estoy seguro de cuál es la estrategia más adecuada, agradecería consejos y referencias relacionadas con este asunto, aunque soy consciente de que ya ha sido ampliamente tratado. Es que no sé muy bien por dónde empezar.

Mi problema es de ciencias políticas y tengo una población finita de 515.843 registros. Están asociados a una variable dependiente binaria con 513.334 "0 "s y 2.509 "1 "s. Puedo considerar los "1" como eventos raros, ya que sólo representan el 0,49% de la población.

Tengo un conjunto de unas 10 variables independientes con las que me gustaría construir un modelo para explicar la presencia de "1". Como muchos de nosotros, he leído Artículo de King y Zeng de 2001 sobre la corrección de eventos raros. Su enfoque fue utilizar un diseño de casos y controles para reducir el número de "0", y luego aplicar la corrección al intercepto.

Sin embargo, este puesto dice que el argumento de King & Zeng no era necesario si ya había recogido mis datos sobre toda la población, como es mi caso. Por lo tanto, tengo que utilizar el modelo logit clásico. Por desgracia para mí, aunque obtengo buenos coeficientes significativos, mi modelo es completamente inútil en términos de predicción (no logra predecir el 99,48% de mis "1").

Después de leer el artículo de King y Zeng, quise probar un diseño de casos y controles y seleccioné sólo el 10% de los "0" con todos los "1". Con casi los mismos coeficientes, el modelo fue capaz de predecir casi un tercio de los "1" cuando se aplicó a toda la población. Por supuesto, hay muchos falsos positivos.

Por lo tanto, tengo tres preguntas que me gustaría hacerle:

1) Si el planteamiento de King y Zeng es perjudicial cuando se tiene pleno conocimiento de la población, ¿por qué utilizan una situación en la que conocen a la población en su artículo para demostrar su punto?

2) Si tengo coeficientes buenos y significativos en una regresión logit, pero un poder predictivo muy pobre, ¿significa eso que la variación explicada por estas variables no tiene sentido?

3) ¿Cuál es el mejor enfoque para hacer frente a los eventos raros? He leído sobre el modelo relogit de King, el enfoque de Firth, el logit exacto, etc. Debo confesar que estoy perdido entre todas estas soluciones.

20voto

jasonmray Puntos 1303

(1) Si tienes "pleno conocimiento de una población", ¿por qué necesitas un modelo para hacer predicciones? Sospecho que implícitamente los estás considerando como una muestra de una hipotética superpoblación-ver aquí & aquí . Entonces, ¿hay que desechar las observaciones de la muestra? No. King y Zeng no abogan por ello:

[...] En campos como las relaciones internacionales, el número de 1 observables (como las guerras) es estrictamente limitado, por lo que en la mayoría de las aplicaciones es mejor recoger todos los 1 disponibles o una gran muestra de ellos. La única decisión real es entonces cuántos 0 hay que recoger también. Si recoger los 0 no tiene coste, deberíamos recoger todos los que podamos, ya que más datos son siempre mejores.

La situación a la que creo que te refieres es el ejemplo "Seleccionar en $Y$ en datos de disputas interestatales militarizadas". K.&Z. lo utilizan para, bueno, demostrar su argumento: en este ejemplo, si un investigador hubiera tratado de economizar recogiendo todos los 1 y una proporción de los 0, sus estimaciones serían similares a las de uno que hubiera muestreado todos los 1 y 0 disponibles. ¿De qué otra forma se podría ilustrar esto?

(2) La cuestión principal aquí es el uso de un regla de puntuación incorrecta para evaluar el rendimiento predictivo de su modelo. Supongamos que su modelo fuera verdadero para que para cualquier individuo que conocía la probabilidad de que se produzca un acontecimiento raro, por ejemplo, que te muerda una serpiente en el próximo mes. ¿Qué más se aprende estipulando un límite de probabilidad arbitrario y prediciendo que los que están por encima de él serán mordidos y los que están por debajo no lo serán? Si se fija un límite del 50%, es probable que se prediga que nadie será mordido. Si lo haces lo suficientemente bajo, puedes predecir que todos serán mordidos. ¿Y qué? La aplicación sensata de un modelo requiere discriminación -¿a quién se le debe dar la única ampolla de antiveneno?- o calibración -¿para quién vale la pena comprar botas, dado su coste en relación con el de una mordedura de serpiente?

4voto

ykaganovich Puntos 8497

Por un lado, me pregunto hasta qué punto la inexactitud de su modelo se debe simplemente a que su proceso es difícil de predecir, y sus variables no son suficientes para hacerlo. ¿Hay otras variables que podrían explicar más?

Por otro lado, si puede plantear su variable dependiente como un problema de recuento/ordinal (como las víctimas del conflicto, o la duración del mismo), podría probar con modelos de regresión de recuento cero-inflado o de obstáculos. Éstos podrían tener el mismo problema de mala definición entre 0 y 1, pero algunos conflictos con los que sus variables están correlacionadas podrían alejarse de cero.

1voto

Alexey Grigorev Puntos 1751

Además de reducir el muestreo de la población mayoritaria, también puede sobremuestrear los eventos raros, pero tenga en cuenta que el sobremuestreo de la clase minoritaria puede llevar a un sobreajuste, así que compruebe las cosas con cuidado.

Este documento puede dar más información al respecto: Yap, Bee Wah, et al. "An Application of Oversampling, Undersampling, Bagging and Boosting in Handling Imbalanced Datasets". pdf

Además, me gustaría enlazar esta pregunta ya que también discute el mismo tema

0voto

andynormancx Puntos 234

Su pregunta se reduce a cómo puedo obligar a la regresión logit a encontrar una solución mejor. Pero, ¿está usted seguro de que existe una solución mejor? Con sólo diez parámetros, ¿pudiste encontrar una solución mejor?

Yo intentaría un modelo más complicado añadiendo, por ejemplo, términos de producto en la entrada, o añadiendo una capa de máxima en el lado del objetivo (de modo que esencialmente tenga múltiples regresores logísticos para varios subconjuntos de objetivos 1 descubiertos de forma adaptativa).

-1voto

Rebecca Puntos 51

Gran pregunta.

En mi opinión, la cuestión es si estás tratando de hacer inferencia (¿estás interesado en lo que te dicen tus coeficientes?) o predicción. Si se trata de esto último, se pueden tomar prestados modelos de aprendizaje automático (BART, randomForest, árboles potenciados, etc.) que, con toda seguridad, harán un mejor trabajo de predicción que logit. Si estás haciendo inferencia, y tienes tantos puntos de datos, entonces intenta incluir términos de interacción sensibles, términos polinómicos, etc. También se puede hacer inferencia a partir de BART, como en este artículo:

http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

Recientemente he estado trabajando en eventos raros, y no tenía idea de antemano de cuánto pueden afectar los casos raros al análisis. El muestreo descendente de los casos 0 es imprescindible. Una estrategia para encontrar la proporción ideal de muestreo descendente sería

  1. Toma todos tus 1s, digamos que tienes n1 de ellos.
  2. Establezca algún valor z = múltiplo del n1 que va a dibujar; tal vez comience en 5 y reduzca a 1.
  3. dibujar z*n1 0 observaciones
  4. Estime su modelo en una muestra de su subconjunto de datos, asegurándose de realizar una validación cruzada en todo el conjunto de datos
  5. Guarde las medidas de ajuste relevantes que le interesen: coeficientes de interés, AUC de una curva ROC, valores relevantes en una matriz de confusión, etc.
  6. Repita los pasos 2:5 para zs sucesivamente más pequeñas. Probablemente encontrará que, a medida que reduzca la muestra, la proporción de falsos negativos y falsos positivos (en su conjunto de pruebas) disminuirá. Es decir, empezará a predecir más 1s, con suerte que sean realmente 1s, pero también muchos que sean realmente 0s. Si hay un punto de equilibrio en esta clasificación errónea, entonces esa sería una buena proporción de muestra descendente.

Espero que esto ayude. JS

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X