6 votos

Cuánto de un problema son autocorrelated residuos de un binario GAM (modelo Aditivo Generalizado)?

Estoy tratando de predecir el alta o la baja tasa de delincuencia en las regiones (binario 1/0 variable de respuesta), utilizando una amplia gama de variables socioeconómicas. Estoy haciendo esto con un panel conjunto de datos con más de 300 regiones a lo largo de 17 años (2006-2016). Para ser más específicos que entrenar el modelo de datos de 2006-2015, y predecir con datos sobre las características de los predictores de 2016. El binario GAM estoy usando para la predicción tiene mucho autocorrelated residuos, ¿cómo afectará esto a mis predicciones?

Yo, en general, han encontrado una información muy limitada sobre el uso de panel o longitudinales conjuntos de datos con respuesta binaria de las variables de predicción con los métodos de aprendizaje automático (Random Forest, Naive Bayes, K-NN) y por lo tanto también apreciar los pensamientos sobre esto.

Una cosa que me molesta es cómo hacer un modelo como el bosque aleatorio o GAM aviso de la identificación y dimensiones de tiempo de un conjunto de datos de panel.

7voto

David J. Sokol Puntos 1730

La autocorrelación va a afectar a cualquier inferencia estadística se intenta hacer con el modelo, tales como las pruebas se suaviza son significativos.

Es trivial para incluir los efectos aleatorios y espacio-temporal se suaviza en el GAM. Tendrás que ampliar sobre qué características desea incluir en este modelo, pero, por ejemplo:

  • Un isotópica espacial más suave (coords x y y) más específico de la región, las tendencias temporales todos con el mismo wiggliness (pero no con la misma forma) incluiría

    gam(y ~ s(x,y) + s(time, region, bs = 'fs'), data = foo, method = 'REML')
    
  • Una isotrópica espacial más suave más específico de la región, las tendencias temporales con diferentes wiggliness

    gam(y ~ region + s(x,y) + s(time, by = region), data = foo, method = 'REML')
    

y podemos construir a partir de ahí. Por ejemplo, un Campo Aleatorio de Markov suave puede ser utilizado para las regiones si se areal de datos (límites administrativos, etc), y el efecto aleatorio de la base se puede utilizar si desea un azar de interceptar por región o tema. (Nota: los anteriores son el uso de la sintaxis de la mgcv paquete.)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X