Cuando el modelado de eventos raros con la regresión logística, la corrección es un método común para reducir el cálculo de la complejidad (es decir, mantener todos los raros casos positivos, pero sólo una submuestra de los casos negativos). Después del ajuste del modelo, la adición de un desplazamiento en el término de intersección es un método común para corregir la probabilidad de eventos para reflejar la muestra original proporción. El desplazamiento es igual a log( r1*(1-p1) / (1-r1)*p1 ), donde r1 es la proporción de eventos raros en el sobremuestreo de datos y p1 es la proporción en los datos originales. ¿Cuál es el equivalente a la fórmula de regresión logística multinomial, donde 1 o más clases es muestreado?
Respuesta
¿Demasiados anuncios?
James Sutherland
Puntos
2033
Fuera del manguito, supongo que uno podría proceder como en la regresión logística: una generalización a$K>2$ categorías y la categoría de base$K$ sería establecer el$i$ - término de corrección a$$\log \frac{(r_i p_K)}{(r_K p_i)}$ $ Correspondiente al contraste$i$ vs$K$. Para$K=2$,$p_1$ es igual que antes y$p_K = p_2 = 1-p_1$, por lo que se reduce a$$\log \frac{r_1 (1-p_1)}{(1-r_1) p_1}.$ $
Sin embargo, estaría encantado de ser corregido en este caso.