Estoy construyendo un modelo de regresión de aprendizaje automático (bosque aleatorio) para predecir el caudal de un río, utilizando las precipitaciones, la humedad relativa, la temperatura del aire y algunas otras variables climáticas. Dado que el caudal en un día concreto ( flow_t
) está altamente correlacionado con el flujo del día anterior ( flow_t_1
), quiero incluir el flujo retardado en la formulación del modelo.
En caso de que construya el modelo de esta manera:
require(randomForest)
flow.rf=randomForest(flow_t~flow_t_1+temp+humidity..........)
¿Cómo puedo utilizar el modelo anterior para las predicciones? Como el conjunto de datos de entrada para la predicción no tendrá la variable de flujo, no puedo incluir su versión retardada en la llamada a la predicción. Sé que el dynlm
puede utilizarse para llevar a cabo una "modelización autorregresiva de rezagos distribuidos" con el fin de incluir variables dependientes rezagadas, pero ¿cómo puede hacerse esto para los modelos de aprendizaje automático? ¿O incluso para otras técnicas de modelización estadística, como los GLM y los GAM?