Corrección del sesgo de Gran Escala de Regresión Logística con Eventos Raros

Question

Corrección del sesgo de Gran Escala de Regresión Logística con Eventos Raros

Preguntado el 17 de Marzo, 2015: Cuando se hizo la pregunta
238 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Tengo un gran conjunto de datos constituida de muchas de las impresiones de anuncios. Mi dependiente de la variable binaria clic describir si es o no el anuncio fue hecho clic en. Como se puede esperar, el número de clics que se acerca 1000x más pequeño que el número de clics en mis datos.

Yo soy el ajuste de una Línea de Regresión Logística para este conjunto de datos y me enteré de que mis predicciones parecen estar subestimando el observado a través de click-through de la tasa de

El rey y Zeng (2002) afirman que "la Regresión Logística puede bruscamente subestimar la probabilidad de eventos raros". Firth (1993) propone un método de prevención para evitar el primer fin de sesgo en la Regresión Logística mediante el uso de Jeffreys Antes:

En lugar de aplicar la costumbre de degradado: $$ U(\beta_r) = \sum_{i=1}^n (y_i - p_i)x_{ir} = 0$$

el siguiente gradiente debe corregir el primer fin de sesgo: $$ U^*(\beta_r) = \sum_{i=1}^n (y_i - p_i + h_i(\frac{1}{2}-p_i))x_{ir} = 0$$

donde:

$y_i$ es el observado destino para la observación de $i$
$p_i$ es la predicción del modelo para la observación $i$
$x_{ir}$ es el valor de la función $r$ para la observación $i$
$h_i$ $i$- ésimo elemento de la diagonal $H=W^{\frac{1}{2}}X(X^TWX)^{-1}X^TW^{\frac{1}{2}}$, $W=diag(p_i(1-p_i))$

Esta fórmula, descrito por Heinze & Schemper (2002) también fue usada para la aplicación de la logistf paquete en R.

Como se puede imaginar, el cálculo de $H$ para grandes conjuntos de datos puede ser bastante caro. De ahí mis preguntas siguientes:

Alguien ha intentado adaptar el Firth Método en Línea de Regresión Logística? ¿Cómo simplificar el cálculo de $h_i$?
Existen diferentes enfoques para corregir la subestimación de sesgo en línea de regresión logística para grandes conjuntos de datos desbalanceados?

Preguntado el 17 de Marzo, 2015 por Xavi

Answer 1

1 Respuestas

Answer 2

2voto

Random player Puntos 11

En primer lugar, debo admitir que no sé exactamente qué quieres decir con 'online' de regresión logística. Por supuesto, el cálculo de H es caro si realmente la matriz de operaciones. Sin embargo, todo lo que se necesita es que los elementos de la diagonal de H, que vienen a mucho menor costo. Dependiendo de sus variables explicativas, usted puede ser capaz de agrupar los datos de tal manera que cada covariable/resultado de la combinación se le puede asignar un número de frecuencia. Esto acelera los cálculos de forma espectacular. Ambas opciones son implementadas (y que se utiliza por defecto) en la versión actual de nuestro paquete de R logistf.

Respondido el 14 de Octubre, 2015 por Random player (11 Puntos )

Corrección del sesgo de Gran Escala de Regresión Logística con Eventos Raros

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Corrección del sesgo de Gran Escala de Regresión Logística con Eventos Raros

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: