La idea de gui11aume de la construcción de un modelo de dos etapas es el camino correcto a seguir, sin embargo, uno debe considerar la especial dificultad de su instalación, que es muy fuerte correlación negativa entre la deuda de la cantidad y la probabilidad de hacer un pago
El principal problema de la construcción de un modelo de dos etapas de aquí es, que el segundo modelo (para la predicción de la deuda), cuando se construyó sobre la "no-ceros" sólo, está construido sobre una más probable es que no aleatoria de la muestra de la población (es decir, todo el conjunto de datos), pero la combinación de modelo para ser aplicado en el conjunto de la población de nuevo. Esto significa que el segundo modelo para hacer predicciones para las partes de los datos que ella nunca ha visto antes, lo que resulta en una pérdida de precisión. Este es el llamado Sesgo de Selección (para una visión general de un ML perspectiva recomiendo Una Red Bayesiana Marco para Rechazar la Inferencia por Smith y Elkan).
La KDD-Copa-98 lidiar con un problema similar, donde uno debe predecir si un donante para una organización de veteranos es probable que volver a donar y cuánto es probable que donar. En este conjunto de datos, la probabilidad de donar de nuevo se correlacionó negativamente con la espera de la cantidad de dinero, también. El Sesgo de Selección también apareció.
La solución que más me impresionó se puede encontrar en el Aprendizaje y la toma de Decisiones Cuando los Costos y las Probabilidades son Desconocidos por Bianca Zadrozny y Charles Elkan. Ellos han creado un costo sensibles a la solución basada en la corrección de Heckman, que es de mi conocimiento el primer enfoque sistemático para corregir el (ejemplo) sesgo de selección.