Tengo un conjunto de datos con datos de eventos. Tiene una fecha de inicio y una fecha de finalización variables. Necesito predecir el tiempo restante hasta que finalice un evento. El problema es que no puedo usar eventos en tiempo futuro para predecir eventos antes de esa fecha. Por eso necesito dividir de alguna manera los datos en el conjunto de entrenamiento con sólo los eventos que terminan antes de que empiecen los eventos en el conjunto de datos de prueba y aún así mantener una buena división 75/25 o 80/20. ¿Alguna idea?
Gracias.
Algunas aclaraciones sobre el problema:
Los sucesos son en realidad casos agregados con columnas codificadas de un solo punto de diferentes tipos de sucesos como recuentos de ocurrencia. El problema es predecir el tiempo real que queda hasta el final de un evento. La razón de esta particular división, es que no puedes usar eventos que ocurran en el futuro, para predecir el tiempo restante de los casos (y por lo tanto eventos pertenecientes a este caso). Si haces eso, se asume que son independientes, pero en realidad no lo son.