8 votos

Corrección sesgo de regresión logística de evento raro

En el Rey Zheng y del papel: http://gking.harvard.edu/files/gking/files/0s.pdf

Se menciona acerca de la $\tau$$\bar{y}$. Ya tengo los datos con 90000 0 y 450 1. Ya he instalado una regresión logística con el conjunto de los datos y quiere hacer una antes de la corrección en el intercepto.

O debe ser que me tome unos 3000 0 y 450 1 y, a continuación, ejecutar la regresión logística y, a continuación, aplicar el antes de la corrección de interceptar? sería entonces $\tau$ = 450/90450 y $\bar{y}$ = 450/3450?

Edición Basada en la respuesta de Scortchi

Estoy tratando de predecir la probabilidad de un matchmaking sucediendo. Un partido que podría estar pasando entre un comprador y un vendedor, dos personas en un sitio de citas, o un buscador de trabajo y el empleado potencial. 1 es cuando un partido que sucede, cero para todos los otros pares de interacciones que se han registrado. Tengo la vida real los datos de uno de estos casos de uso. Como se dijo antes, la tasa de 1 en los datos es muy pequeña (=450/(450+90000). Quiero construir un modelo de regresión logística con la corrección del Rey et.al.

Los datos que tengo pueden ser considerados todos los datos posibles, es decir, el universo entero. Me gustaría suponer que la tasa de 1 en el universo sería de 450/(450 + 90000).

Quiero probar todos los 1 (450) y una al azar 3000 0 a partir de este universo de datos. Este sería el muestreo basado en 1. Una vez que la regresión logística es construido en esto, quiero hacer una corrección del sesgo.

Es correcto suponer aquí que $\tau$ = 450/(450 + 90000) y $\bar{y}$ = 450/(450+3000)?

Yo estoy argumentando que $\tau$ es de hecho el universo estimaciones ya que para mi caso de uso estoy bastante tienen toda la población objetivo de los datos. Mi pregunta es, con la configuración actual del problema ¿cómo $\tau$ $\bar{y}$ ser definido? Tiempo de ejecución no es el problema, sino cómo hacer que la corrección del sesgo para un evento raro es el problema.

4voto

jasonmray Puntos 1303

Ellos definen $\tau$ & $\bar{y}$ también: $\tau$ es la fracción de 1 en la población; $\bar{y}$ es el observado fracción de 1 en el ejemplo (basado en la información previa).

Por lo general se usa antes de la corrección cuando las muestras con base en el resultado; que me imagino que usted no aquí. Pero si los tienes, a continuación, $\bar{y}=\frac{450}{90450}$ & usted necesita saber o estimar el $\tau$ en alguna otra forma.

Por muestreo, como se describe (correctamente) en su último párrafo, puede ser de ayuda si el total de la muestra es demasiado grande para la memoria de su computadora o de su procesador para tratar con rapidez, a costa de sacrificar un poco de precisión. Pero en este caso has de ajuste del modelo en todos los datos ya (dudo que se tomó muy largo).

[Lo que usted describe en su editar es lo que he llamado por muestreo, y que se está aplicando la anterior corrección correctamente. En las estadísticas médicas se llama un diseño caso–control—ver aquí. Es posible que desee hacer cuando se tiene la respuesta, pero aún no los predictores, y hay un costo adicional para la medición de aquellos. No sé por qué estás llamando "sesgo de corrección para un evento raro", sin embargo: es una corrección de la intersección de la deliberadamente introducido un sesgo de muestreo. La sección 5 del documento se ocupa de la corrección del sesgo de máxima verosimilitud de las estimaciones de las probabilidades de registro proporciones y probabilidades pronosticadas.]

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X