Tengo un gran conjunto de datos constituida de muchas de las impresiones de anuncios. Mi dependiente de la variable binaria clic describir si es o no el anuncio fue hecho clic en. Como se puede esperar, el número de clics que se acerca 1000x más pequeño que el número de clics en mis datos.
Yo soy el ajuste de una Línea de Regresión Logística para este conjunto de datos y me enteré de que mis predicciones parecen estar subestimando el observado a través de click-through de la tasa de
El rey y Zeng (2002) afirman que "la Regresión Logística puede bruscamente subestimar la probabilidad de eventos raros". Firth (1993) propone un método de prevención para evitar el primer fin de sesgo en la Regresión Logística mediante el uso de Jeffreys Antes:
En lugar de aplicar la costumbre de degradado: $$ U(\beta_r) = \sum_{i=1}^n (y_i - p_i)x_{ir} = 0$$
el siguiente gradiente debe corregir el primer fin de sesgo: $$ U^*(\beta_r) = \sum_{i=1}^n (y_i - p_i + h_i(\frac{1}{2}-p_i))x_{ir} = 0$$
donde:
- $y_i$ es el observado destino para la observación de $i$
- $p_i$ es la predicción del modelo para la observación $i$
- $x_{ir}$ es el valor de la función $r$ para la observación $i$
- $h_i$ $i$- ésimo elemento de la diagonal $H=W^{\frac{1}{2}}X(X^TWX)^{-1}X^TW^{\frac{1}{2}}$, $W=diag(p_i(1-p_i))$
Esta fórmula, descrito por Heinze & Schemper (2002) también fue usada para la aplicación de la logistf paquete en R.
Como se puede imaginar, el cálculo de $H$ para grandes conjuntos de datos puede ser bastante caro. De ahí mis preguntas siguientes:
- Alguien ha intentado adaptar el Firth Método en Línea de Regresión Logística? ¿Cómo simplificar el cálculo de $h_i$?
- Existen diferentes enfoques para corregir la subestimación de sesgo en línea de regresión logística para grandes conjuntos de datos desbalanceados?