Tengo que construir un modelo predictivo y estoy buscando algunas ideas sobre el enfoque. Tengo un gran conjunto de datos de entrenamiento de los saldos de los clientes (piense en una cuenta de ahorros) en el momento t=1 a 36 que representan los promedios mensuales durante tres años. Quiero construir un modelo para predecir el valor de la cuenta de un cliente en t=4..36 utilizando sólo la información disponible al final de t=3. Por lo tanto, se trata de un problema de tipo predictivo, pero no en el sentido de las series temporales en las que se observa una secuencia de datos significativamente más larga que el horizonte temporal que se intenta predecir.
Estoy pensando en enfocar esto como un modelo de riesgo discreto, donde se crea una fila en el conjunto de datos para cada combinación de cliente/mes (así que aquí cada cliente tiene 33 filas en los datos y una variable llamada t toma los valores 4 a 36). Para cada mes se repiten las variables de "estado inicial" del cliente conocidas al final del mes 3. Esta es la configuración del llamado datos del periodo de la persona .
A continuación, aprendería un modelo de regresión sobre estos datos utilizando los datos del estado inicial y 't'.
No se tendría en cuenta el hecho de que los clientes se repiten en los datos. Esto funciona para un modelo de riesgo en tiempo discreto, pero mi pregunta es si esto es correcto para una regresión lineal o un algoritmo de aprendizaje automático (por ejemplo, una red neuronal). ¿Hay alguna forma mejor?
ADD : En concreto, me pregunto si un modelo de este tipo fallará si no tiene en cuenta explícitamente las medidas repetidas y la correlación entre filas (los mismos clientes en varios valores de "t"). Cuando se trata de un modelo predictivo, ¿cómo se podría tener en cuenta esto?