5 votos

Modelos predictivos con grandes cantidades de valores perdidos en las características

He estado tratando de entrenar a un algoritmo para predecir si una cuenta se cerrará o no el uso de miles de puntos de datos y las características de muchos.

Estoy utilizando los datos del mes anterior al cierre de la cuenta, pero el problema es que las cuentas han sido de alrededor de diferentes cantidades de tiempo. Así, mientras que para uno cuenta de que yo sólo podría tener los datos de rendimiento de hasta 1 año, para otra cuenta de que yo podría tener 1 mes, 3 meses, 1 año, 3 años, 5 años y hasta 10 años. Hubo 94 características, pero me cortó a 19 para empezar a jugar con ella.

Estoy buscando un poco de ayuda sobre cómo puedo construir un algoritmo que incorpora las diferentes cantidades de datos para cada cuenta. Yo estaba pensando en usar una red neuronal porque siempre he estado interesado en ellos, pero estoy abierto a cualquier sugerencia.

Básicamente, entonces, tengo muchos valores que faltan en mi cuenta. Si yo simplemente omitir observaciones con muchos valores perdidos, mi conjunto de datos se vuelve demasiado pequeño para ser útil. Hay una manera estándar de manejo de este tipo de problema de falta de datos, o un algoritmo particular o modelo que maneja bien?

enter image description here

1voto

digiguru Puntos 3305

Yo no soy lo suficiente de un experto en redes neuronales (o de otro aficionado con los métodos de aprendizaje automático así, es decir, SVMs, etc.) para saber cuál es el estado del arte en términos de manejo de los datos que faltan en esas áreas.

Sin embargo, sé que los árboles de decisión (estoy más familiarizado con el CARRITO de la variante) son capaces de "controlar" los valores perdidos con relativa facilidad. Sospecho que usted puede ser capaz de obtener relativamente lejos de la combinación de un gran número de simple los árboles utilizando embolsado o impulsar.

Sin embargo, no me gustaría tratar esta respuesta como particularmente canónica. Sospecho que esta pregunta puede recibir mejores respuestas en stats.stackexchange.com , así que me he marcado para la migración. Si los mods de acuerdo, usted no necesita hacer nada, se mueve de forma automática.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X