8 votos

Corrección del sesgo de Gran Escala de Regresión Logística con Eventos Raros

Tengo un gran conjunto de datos constituida de muchas de las impresiones de anuncios. Mi dependiente de la variable binaria clic describir si es o no el anuncio fue hecho clic en. Como se puede esperar, el número de clics que se acerca 1000x más pequeño que el número de clics en mis datos.

Yo soy el ajuste de una Línea de Regresión Logística para este conjunto de datos y me enteré de que mis predicciones parecen estar subestimando el observado a través de click-through de la tasa de

El rey y Zeng (2002) afirman que "la Regresión Logística puede bruscamente subestimar la probabilidad de eventos raros". Firth (1993) propone un método de prevención para evitar el primer fin de sesgo en la Regresión Logística mediante el uso de Jeffreys Antes:

En lugar de aplicar la costumbre de degradado: $$ U(\beta_r) = \sum_{i=1}^n (y_i - p_i)x_{ir} = 0$$

el siguiente gradiente debe corregir el primer fin de sesgo: $$ U^*(\beta_r) = \sum_{i=1}^n (y_i - p_i + h_i(\frac{1}{2}-p_i))x_{ir} = 0$$

donde:

  • $y_i$ es el observado destino para la observación de $i$
  • $p_i$ es la predicción del modelo para la observación $i$
  • $x_{ir}$ es el valor de la función $r$ para la observación $i$
  • $h_i$ $i$- ésimo elemento de la diagonal $H=W^{\frac{1}{2}}X(X^TWX)^{-1}X^TW^{\frac{1}{2}}$, $W=diag(p_i(1-p_i))$

Esta fórmula, descrito por Heinze & Schemper (2002) también fue usada para la aplicación de la logistf paquete en R.

Como se puede imaginar, el cálculo de $H$ para grandes conjuntos de datos puede ser bastante caro. De ahí mis preguntas siguientes:

  1. Alguien ha intentado adaptar el Firth Método en Línea de Regresión Logística? ¿Cómo simplificar el cálculo de $h_i$?
  2. Existen diferentes enfoques para corregir la subestimación de sesgo en línea de regresión logística para grandes conjuntos de datos desbalanceados?

2voto

Random player Puntos 11

En primer lugar, debo admitir que no sé exactamente qué quieres decir con 'online' de regresión logística. Por supuesto, el cálculo de H es caro si realmente la matriz de operaciones. Sin embargo, todo lo que se necesita es que los elementos de la diagonal de H, que vienen a mucho menor costo. Dependiendo de sus variables explicativas, usted puede ser capaz de agrupar los datos de tal manera que cada covariable/resultado de la combinación se le puede asignar un número de frecuencia. Esto acelera los cálculos de forma espectacular. Ambas opciones son implementadas (y que se utiliza por defecto) en la versión actual de nuestro paquete de R logistf.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X