4 votos

Selección de variables para la covariable temporal

Estoy ajustando un modelo lineal en el que la respuesta es una función tanto del tiempo como de las covariables estáticas (es decir, las que son independientes del tiempo). El objetivo final es identificar los efectos significativos de las covariables estáticas.

¿Es ésta la mejor estrategia general para la selección de variables (en R, utilizando el nlme paquete)? ¿Hay algo que pueda hacer mejor?

  1. Desglosa los datos por grupos y traza un gráfico en función del tiempo. Para las covariables continuas, divida los datos en grupos y trace los datos de cada grupo en función del tiempo. Utilice las tendencias específicas del grupo para hacer una conjetura inicial sobre qué términos de tiempo incluir - tiempo, tiempo^n, sin(2*pi*tiempo)+cos(2*pi*tiempo), log(tiempo), exp(tiempo), etc.
  2. Añade un término a la vez, comparando cada modelo con su predecesor, nunca añadiendo un orden superior en ausencia de términos de orden inferior. El pecado y el cos nunca se suman por separado. ¿Es aceptable pasar por alto un término que mejora significativamente el ajuste del modelo si no hay una interpretación física de ese término? .
  3. Con el conjunto de datos completo, utilice la selección directa para añadir variables estáticas al modelo y, a continuación, los términos de interacción pertinentes entre sí y con los términos temporales. He visto algunas críticas fuertes a la regresión por pasos, pero ¿la selección hacia adelante no ignora los términos significativos de orden superior si los términos de orden inferior de los que dependen no son significativos? Y me he dado cuenta de que es difícil elegir un modelo de partida para la eliminación hacia atrás que no esté saturado, o sea singular, o no converja. ¿Cómo se decide entre los algoritmos de selección de variables?
  4. Añadir efectos aleatorios al modelo. ¿Es tan sencillo como hacer la selección de variables con lm() y luego poner la fórmula final en lme() y especificando los efectos aleatorios? ¿O debo incluir los efectos aleatorios desde el principio? . Compare los ajustes de los modelos utilizando sólo un intercepto aleatorio, una interacción aleatoria con el término temporal lineal y una interacción aleatoria con cada término temporal sucesivo.
  5. Trace un semivariograma para ver si es necesario un término de error autorregresivo. ¿Cómo debería ser un semivariograma si la respuesta es "no"? ¿Una línea horizontal? ¿Cómo de recta, cómo de horizontal? ¿Incluir la autoregresión en el modelo requiere comprobar las posibles variables e interacciones para asegurarse de que siguen siendo relevantes?
  6. Grafique los residuos para ver si la varianza cambia en función del valor ajustado, el tiempo o cualquiera de los otros términos. Si lo hace, ponderar las varianzas adecuadamente (para lme() Utiliza el weights para especificar un varFunc() ) y comparar con el modelo no ponderado para ver si esto mejora el ajuste. ¿Es ésta la secuencia correcta para realizar este paso, o debería hacerse antes de la autocorrelación? .
  7. Haga summary() del modelo ajustado para identificar los coeficientes significativos de las covariables numéricas. Haga Anova() del modelo ajustado para identificar los efectos significativos de las covariables cualitativas.

1voto

Owen Fraser-Green Puntos 642

Los modelos de ajuste que incluyen el tiempo, el tiempo-cuadrado, el tiempo-cubo, los senos, los cosenos, etc., no son muy útiles en mi opinión, ya que asumen una estructura determinista que a menudo es inapropiada. El enfoque que hay que adoptar es el de utilizar valores históricos que son valores retardados de la serie de resultados y posiblemente de las covariables. Al construir estos modelos hay que verificar algunas cosas ( los supuestos gaussianos ) antes de declarar la victoria : 1. que la media de los errores es "cercana a cero" para todos los intervalos de tiempo, de lo contrario podría ser necesaria una estructura identificable empíricamente, como pulsos, cambios de nivel, tendencias temporales locales y/o pulsos estacionales (N.B.: esto no se garantiza simplemente incluyendo una constante en el modelo); 2. que no hay una estructura autocorrelativa demostrable en los residuos para TODOS LOS LAGOS; 3. que los parámetros de su modelo son estables y no se producen cambios en el tiempo. que los parámetros de su modelo sean estables/constantes a lo largo del tiempo ; 4. que la varianza de los errores sea constante a lo largo del tiempo por lo que no haya rupturas estructurales en la varianza que requieran una estimación ponderada y no haya dependencia de la variabilidad del error con el nivel de la serie y no haya adaptación estocástica de la varianza en efecto. El enfoque propuesto se denomina Función de Transferencia y es un superconjunto de modelos de Regresión y ARIMA junto con la Detección de Intervenciones

1voto

dan90266 Puntos 609

Una selección del modelo totalmente basada en los datos dará lugar a errores estándar y valores P demasiado pequeños, intervalos de confianza demasiado estrechos y efectos exagerados de los términos restantes del modelo.

Para los efectos temporales suelo modelizar utilizando splines cúbicos restringidos. Un estudio de caso detallado en el contexto de los mínimos cuadrados generalizados para datos seriales correlacionados puede encontrarse en http://biostat.mc.vanderbilt.edu/RmS - ver los dos archivos adjuntos en la parte inferior llamados course2.pdf y rms.pdf. Se utiliza el paquete R rms. El caso de estudio contiene información sobre la elección de las funciones de base para la componente temporal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X