5 votos

¿Se recomienda alguna vez usar la imputación media / múltiple cuando se usan modelos predictivos basados en árboles?

Cada vez que yo estoy haciendo algunos modelos de predicción y me faltan algunos datos que imputar las variables categóricas con algo como "DESCONOCIDO" y las variables numéricas con algunos absurda número que nunca será visto en la práctica (incluso si la variable es ilimitado puedo tomar el exponente de la variable y hacer que el desconocido valores negativos).

La principal ventaja es que el modelo se sabe que la variable que falta, que no es el caso para decir que la media de la imputación. Puedo ver que esto podría ser desastroso en modelos lineales o redes neuronales, pero en el árbol de los modelos basados en esta se maneja muy bien.

Sé que hay una gran cantidad de literatura sobre la falta de imputación de datos, pero ¿cuándo y por qué yo nunca use uno de estos métodos cuando la falta de datos para la predicción (árbol) de los modelos?

4voto

Cliff AB Puntos 3213

Una de las razones puede que no desee utilizar "insertar imposible de valor" métodos es que significa que su modelo predictivo funciona condicional en la distribución de los datos missingness permanece sin cambios. Por lo tanto, si después de la construcción de su modelo de árbol, se dio cuenta de que podemos empezar a utilizar ciertas funciones más a menudo, ya no podemos utilizar el modelo que se construyó con la "imputar imposible de valor" método sin la reeducación del modelo.

De hecho, este problema es aún complica si las tasas de missingness cambios durante el proceso de recolección de datos en sí. Entonces, incluso inmediatamente después de la construcción del modelo, ya está "fuera de fecha", como las tasas actuales de missingness será diferente que el de las tasas de missingness durante cuando se recogieron los datos.

Para ilustrar el problema, supongamos que un banco es la construcción de una base de datos para ayudar a predecir si los clientes de impago de un préstamo. Temprano en el proceso de recolección de datos, los oficiales de préstamo tiene la opción de llevar a cabo una investigación de antecedentes, pero casi nunca hacen para que los clientes consideren como de confianza. Así que, por la especial confianza de los clientes, la verificación de los antecedentes de la variable es casi siempre falta. Si se utiliza el "imposible imputar el valor de" método, teniendo un valor posible para verificaciones de antecedentes indica un alto riesgo.

Si la verificación de antecedentes tarifas no cambian en absoluto, entonces este "imposible imputar el valor de" método es probable que todavía proporcionan predicciones válidas. Sin embargo, supongamos que el banco se da cuenta de que las verificaciones de antecedentes son realmente útiles para la evaluación de riesgo, por lo que cambiar su política para incluir la verificación de antecedentes para todos. Entonces, todo el mundo tendrá un valor posible para la verificación de antecedentes y el uso de la "imputar imposible de valor" método, todo el mundo será marcado como de "alto riesgo".

Validación cruzada no atrapar a este problema, como la missingness distribución será la misma entre los conjuntos de prueba y entrenamiento. Así que a pesar de la "imputar imposible de valor" método puede conducir a resultados bastante durante la validación cruzada, esto llevará a la baja las predicciones sobre la implementación!

Tenga en cuenta que se necesitan esencialmente de tirar a la basura todos tus datos cada vez que su política de recopilación de datos los cambios! Alternativamente, si usted puede imputar correctamente los valores que faltan y su incertidumbre, ahora usted puede utilizar los datos que se recogen en virtud de la vieja política.

0voto

user229765 Puntos 29

No estoy de acuerdo. Usted puede utilizar el "desaparecido" como un conjunto adicional de información, así como de cualquier otra cosa. La imputación, en este caso, se destaca la falta de información a lo largo de alguna dimensión de la muestra. Que podrían tiene más poder explicativo.

El problema es más que "falta" se convertirá en una variable dicotómica y la mezcla con una continua puede llevar a la ineficiencia de espacio de estado de la segmentación en la forma en que los árboles de regresión son construidos. La clave es la fuerza que el árbol sólo dividir dichotomically demasiado, demasiado aumentar la eficiencia. En otras palabras, su decisión dividida ya es conocido de antemano.

Realmente no importa si la frecuencia de los valores que faltan aumentar o disminuir. Esto está más relacionado con el problema de ser estacionaria o no, y no tiene nada concreto que hacer con el árbol de decisión.

No estacionariedad es manejado a través de la actualización de los árboles de decisión o el uso de un conjunto de árboles de decisión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X