He buscado un poco y no he podido encontrar una respuesta concluyente a esta pregunta. Digamos que tengo varias características que no implican tiempo como: distrito escolar, código postal, edad, nivel de lectura, y estoy tratando de predecir el porcentaje de exámenes que un estudiante pasará durante ventanas de 30 días. Digamos también que sólo tenemos datos para 90 días, por lo que sólo habría dos características retardadas (% de exámenes aprobados en los primeros 30 días, % de exámenes aprobados en los segundos 30 días).
¿Es apropiado utilizar una característica retardada en combinación con esas características estáticas para predecir el porcentaje total de pruebas aprobadas y/o las pruebas aprobadas a los 90 días? Leí un artículo en el que se utilizaba un conjunto de un modelo de series temporales y un modelo estático para hacer predicciones sobre esos datos, pero parece problemático construir un modelo de series temporales si sólo hay dos períodos de tiempo para cada estudiante. También parece que si las características temporales se incluyeran en un modelo tradicional de ML podría haber algunos problemas con la suposición iid? Gracias por su tiempo, estaré encantado de proporcionar cualquier otra información necesaria. No he encontrado nada, incluso después de buscar en la literatura y aquí.