Estoy tratando de predecir el alta o la baja tasa de delincuencia en las regiones (binario 1/0 variable de respuesta), utilizando una amplia gama de variables socioeconómicas. Estoy haciendo esto con un panel conjunto de datos con más de 300 regiones a lo largo de 17 años (2006-2016). Para ser más específicos que entrenar el modelo de datos de 2006-2015, y predecir con datos sobre las características de los predictores de 2016. El binario GAM estoy usando para la predicción tiene mucho autocorrelated residuos, ¿cómo afectará esto a mis predicciones?
Yo, en general, han encontrado una información muy limitada sobre el uso de panel o longitudinales conjuntos de datos con respuesta binaria de las variables de predicción con los métodos de aprendizaje automático (Random Forest, Naive Bayes, K-NN) y por lo tanto también apreciar los pensamientos sobre esto.
Una cosa que me molesta es cómo hacer un modelo como el bosque aleatorio o GAM aviso de la identificación y dimensiones de tiempo de un conjunto de datos de panel.