10 votos

La mejor forma de combinar los binarios y de respuesta continua

Estoy tratando de encontrar la mejor manera de predecir la cantidad de pago por una agencia de cobros. La variable dependiente es sólo distinto de cero cuando el pago ha sido realizado. Comprensiblemente, hay una abrumadora cantidad de ceros debido a que la mayoría de la gente no se encuentra o no puede pagar la deuda.

También existe una fuerte correlación negativa entre la deuda de la cantidad y la probabilidad de hacer un pago. Normalmente, me gustaría crear un modelo logístico para predecir la probabilidad de pagar o no pagar, pero esto tiene la consecuencia desafortunada de encontrar a las personas con el menor de los saldos.

Hay una manera de combinar la logística de pagar o no pagar la modelo con un modelo independiente de predicción de la cantidad de pago?

6voto

Xenph Yan Puntos 20883

La idea de gui11aume de la construcción de un modelo de dos etapas es el camino correcto a seguir, sin embargo, uno debe considerar la especial dificultad de su instalación, que es muy fuerte correlación negativa entre la deuda de la cantidad y la probabilidad de hacer un pago

El principal problema de la construcción de un modelo de dos etapas de aquí es, que el segundo modelo (para la predicción de la deuda), cuando se construyó sobre la "no-ceros" sólo, está construido sobre una más probable es que no aleatoria de la muestra de la población (es decir, todo el conjunto de datos), pero la combinación de modelo para ser aplicado en el conjunto de la población de nuevo. Esto significa que el segundo modelo para hacer predicciones para las partes de los datos que ella nunca ha visto antes, lo que resulta en una pérdida de precisión. Este es el llamado Sesgo de Selección (para una visión general de un ML perspectiva recomiendo Una Red Bayesiana Marco para Rechazar la Inferencia por Smith y Elkan).

La KDD-Copa-98 lidiar con un problema similar, donde uno debe predecir si un donante para una organización de veteranos es probable que volver a donar y cuánto es probable que donar. En este conjunto de datos, la probabilidad de donar de nuevo se correlacionó negativamente con la espera de la cantidad de dinero, también. El Sesgo de Selección también apareció.

La solución que más me impresionó se puede encontrar en el Aprendizaje y la toma de Decisiones Cuando los Costos y las Probabilidades son Desconocidos por Bianca Zadrozny y Charles Elkan. Ellos han creado un costo sensibles a la solución basada en la corrección de Heckman, que es de mi conocimiento el primer enfoque sistemático para corregir el (ejemplo) sesgo de selección.

3voto

JMW.APRN Puntos 21

Esa es una muy buena pregunta (+1).

¿Por qué no tratar la 0s como si fueran NAs?

Se podría añadir un muñeco de respuesta indicando si el dinero se ha recuperado (es decir,igual a 0 cuando el valor es 0, y 1, cuando el valor es positivo) y el ajuste de un modelo logístico en esta respuesta binaria con el mismo predictores. Usted cabría 2 modelos: la respuesta binaria utilizando todos los puntos de datos, y la respuesta continua utilizando sólo no zeron puntos de datos (en línea con la idea de tratar a 0 no aplica (NA).

Usted puede probar la nulidad de los parámetros de cada modelo y calcular la ganancia esperada por el uso de ambos conjuntos de parámetros.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X