He estado tratando de entrenar a un algoritmo para predecir si una cuenta se cerrará o no el uso de miles de puntos de datos y las características de muchos.
Estoy utilizando los datos del mes anterior al cierre de la cuenta, pero el problema es que las cuentas han sido de alrededor de diferentes cantidades de tiempo. Así, mientras que para uno cuenta de que yo sólo podría tener los datos de rendimiento de hasta 1 año, para otra cuenta de que yo podría tener 1 mes, 3 meses, 1 año, 3 años, 5 años y hasta 10 años. Hubo 94 características, pero me cortó a 19 para empezar a jugar con ella.
Estoy buscando un poco de ayuda sobre cómo puedo construir un algoritmo que incorpora las diferentes cantidades de datos para cada cuenta. Yo estaba pensando en usar una red neuronal porque siempre he estado interesado en ellos, pero estoy abierto a cualquier sugerencia.
Básicamente, entonces, tengo muchos valores que faltan en mi cuenta. Si yo simplemente omitir observaciones con muchos valores perdidos, mi conjunto de datos se vuelve demasiado pequeño para ser útil. Hay una manera estándar de manejo de este tipo de problema de falta de datos, o un algoritmo particular o modelo que maneja bien?