Mi objetivo es predecir trimestral del cliente-las probabilidades de incumplimiento: tengo los datos de ~ 2 millones de personas, que por defecto, en promedio, con una probabilidad de ~ 0.3 por ciento.
Por lo tanto estoy pensando en submuestreo, la mayoría de la clase (no-defaults) para ahorrar tiempo de cálculo (kernel métodos pueden ser muy costosas, que yo sé acerca de la corrección de la probabability predicciones); la otra opción, tomar una sub-muestra de los datos.
¿Cuál cree usted que sería una buena proporción de los valores predeterminados para los no-defaults en mi muestra de aprendizaje?
Gracias por su ayuda!