Una de las razones puede que no desee utilizar "insertar imposible de valor" métodos es que significa que su modelo predictivo funciona condicional en la distribución de los datos missingness permanece sin cambios. Por lo tanto, si después de la construcción de su modelo de árbol, se dio cuenta de que podemos empezar a utilizar ciertas funciones más a menudo, ya no podemos utilizar el modelo que se construyó con la "imputar imposible de valor" método sin la reeducación del modelo.
De hecho, este problema es aún complica si las tasas de missingness cambios durante el proceso de recolección de datos en sí. Entonces, incluso inmediatamente después de la construcción del modelo, ya está "fuera de fecha", como las tasas actuales de missingness será diferente que el de las tasas de missingness durante cuando se recogieron los datos.
Para ilustrar el problema, supongamos que un banco es la construcción de una base de datos para ayudar a predecir si los clientes de impago de un préstamo. Temprano en el proceso de recolección de datos, los oficiales de préstamo tiene la opción de llevar a cabo una investigación de antecedentes, pero casi nunca hacen para que los clientes consideren como de confianza. Así que, por la especial confianza de los clientes, la verificación de los antecedentes de la variable es casi siempre falta. Si se utiliza el "imposible imputar el valor de" método, teniendo un valor posible para verificaciones de antecedentes indica un alto riesgo.
Si la verificación de antecedentes tarifas no cambian en absoluto, entonces este "imposible imputar el valor de" método es probable que todavía proporcionan predicciones válidas. Sin embargo, supongamos que el banco se da cuenta de que las verificaciones de antecedentes son realmente útiles para la evaluación de riesgo, por lo que cambiar su política para incluir la verificación de antecedentes para todos. Entonces, todo el mundo tendrá un valor posible para la verificación de antecedentes y el uso de la "imputar imposible de valor" método, todo el mundo será marcado como de "alto riesgo".
Validación cruzada no atrapar a este problema, como la missingness distribución será la misma entre los conjuntos de prueba y entrenamiento. Así que a pesar de la "imputar imposible de valor" método puede conducir a resultados bastante durante la validación cruzada, esto llevará a la baja las predicciones sobre la implementación!
Tenga en cuenta que se necesitan esencialmente de tirar a la basura todos tus datos cada vez que su política de recopilación de datos los cambios! Alternativamente, si usted puede imputar correctamente los valores que faltan y su incertidumbre, ahora usted puede utilizar los datos que se recogen en virtud de la vieja política.