En el Rey Zheng y del papel: http://gking.harvard.edu/files/gking/files/0s.pdf
Se menciona acerca de la $\tau$$\bar{y}$. Ya tengo los datos con 90000 0 y 450 1. Ya he instalado una regresión logística con el conjunto de los datos y quiere hacer una antes de la corrección en el intercepto.
O debe ser que me tome unos 3000 0 y 450 1 y, a continuación, ejecutar la regresión logística y, a continuación, aplicar el antes de la corrección de interceptar? sería entonces $\tau$ = 450/90450 y $\bar{y}$ = 450/3450?
Edición Basada en la respuesta de Scortchi
Estoy tratando de predecir la probabilidad de un matchmaking sucediendo. Un partido que podría estar pasando entre un comprador y un vendedor, dos personas en un sitio de citas, o un buscador de trabajo y el empleado potencial. 1 es cuando un partido que sucede, cero para todos los otros pares de interacciones que se han registrado. Tengo la vida real los datos de uno de estos casos de uso. Como se dijo antes, la tasa de 1 en los datos es muy pequeña (=450/(450+90000). Quiero construir un modelo de regresión logística con la corrección del Rey et.al.
Los datos que tengo pueden ser considerados todos los datos posibles, es decir, el universo entero. Me gustaría suponer que la tasa de 1 en el universo sería de 450/(450 + 90000).
Quiero probar todos los 1 (450) y una al azar 3000 0 a partir de este universo de datos. Este sería el muestreo basado en 1. Una vez que la regresión logística es construido en esto, quiero hacer una corrección del sesgo.
Es correcto suponer aquí que $\tau$ = 450/(450 + 90000) y $\bar{y}$ = 450/(450+3000)?
Yo estoy argumentando que $\tau$ es de hecho el universo estimaciones ya que para mi caso de uso estoy bastante tienen toda la población objetivo de los datos. Mi pregunta es, con la configuración actual del problema ¿cómo $\tau$ $\bar{y}$ ser definido? Tiempo de ejecución no es el problema, sino cómo hacer que la corrección del sesgo para un evento raro es el problema.