6 votos

Ordinal/continuo vs variable ficticia para el tiempo de la serie de regresión de minería de datos

Supongamos que tengo una serie de tiempo de datos que me gustaría retroceder $y$$x$$Time$. Vea a continuación para el conjunto de datos.

y   x   time
12  100 1
14  101 2
16  102 3
18  103 4
20  201 1
22  202 2
24  203 3
26  204 4

Enfoque 1:

Un enfoque es hacer una regresión lineal múltiple o las redes neuronales o SVM directamente en el conjunto de datos anterior por el tratamiento del tiempo como un ordinal (?) o variable continua. Me pueden hacer una serie de tiempo de regresión de la siguiente manera:

$$y = a+\beta_1x+\beta_2 time+\varepsilon$$

where $\varepsilon$ is modeled as ARMA

Approach 2:

Alternatively I can rearrange data and create dummy variables for time as follows:

y   x   Time_1  Time_2  Time_3
12  100 1   0   0
14  101 0   1   0
16  102 0   0   1
18  103 0   0   0
20  201 1   0   0
22  202 0   1   0
24  203 0   0   1
26  204 0   0   0

and do a time series regression/neural network/SVM. For instance a time series would be

$$y = a+\beta_1x+\beta_2 time_1+\beta_3 time_2+\beta_4 time_3+\varepsilon$$

where $\varepsilon$ es modelada como ARMA.

A continuación son mis preguntas:

  1. ¿Cuál es el enfoque correcto - 1 o 2?
  2. Si hacemos uso de la minería de datos como una red neuronal o svm qué importa si utilizamos el enfoque de 1 o 2 ?
  3. Es el enfoque 1 más parsimonioso ya tenemos 1 variable en representación de los tiempos, a diferencia de enfoque 2 que tiene 3 variables?

3voto

alexs77 Puntos 36
  1. El modelado de tiempo continuamente introduce la hipótesis de que existe un lineal de la influencia del tiempo sobre el resultado, condicionada a la $x$. Sin embargo, el ajuste de tiempo fijos y de efectos aleatorios hace esta interpretación un poco insostenible.

  2. Sí importa, lo que importa en absolutamente todos los escenarios. Usted puede verificar esto mediante la simulación de los datos de acuerdo a un modelo lineal. Cuando ajuste categórica efectos de tiempo lineal, todavía constantemente la estimación de la tendencia lineal en el tiempo, pero que "gastar más", con lo que respecta a los grados de libertad.

  3. En general, sí. Hay menos efectos en el primer modelo. Sin embargo, la idea fundamental de que el modelo (categórica efectos versus tiempo lineal) es correcta, puede ser más abordados correctamente preguntando: ¿Cuál es la pregunta científica?

0voto

quiche Puntos 9

¿Qué te hace pensar que el tiempo tiene ningún efecto sobre la variable dependiente?

Me gustaría sugerir que el trazado de la variable dependiente contra el tiempo para evaluar qué tipo de modelo puede ser útil.

Ambos enfoques - lineal o no-lineal) tiempo de tendencia y estacional de las variables ficticias posible que sea necesario. (Normalmente las variables ficticias se utilizan para estacionales o de calendario efectos o impactos).

Si se ajustan a un maniquí de tiempo variable para cada periodo de tiempo y usted no tiene muchas observaciones por período de tiempo, usted podría terminar fácilmente durante el montaje. También, si usted utiliza una serie de independientes de las variables ficticias usted no tiene idea de cuál es el efecto de que el próximo período de tiempo, ya que va a ser independientes. Esto hace que sea menos útil para la previsión de que otras formas de usar el tiempo de un modelo.

Quizás el proceso más complejo como ARIMA puede ser útil. Algo así como el forecast paquete en R puede ser útil para la comprensión de la serie de tiempo. Para ajustar un modelo que podría querer mirar más allá de OLS y considerar la posibilidad de auto-regresivo o dinámica de los modelos de regresión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X