Dado un dato longitudinal, que tiene fecha (en mes-año ) como una de las variables independientes y otras variables independientes que son las toneladas métricas brutas, la resistencia a la tracción (UTS), el peso por unidad de longitud, la zona de la vía férrea y la variable dependiente - el número de fallos de la vía férrea, cuál es la buena manera de construir un modelo de predicción para los datos. Las fechas van de enero-2010 a diciembre-2019 (120 puntos de tiempo). Las columnas GMT, UTS, Zona, Peso no son series temporales sino datos transversales.
Los datos parecen -
Zone | Time | GMT | UTS | Weight | RF |
CR | jan-2010 | >100 | 880 | 52Kg | 90 |
NR | feb-2010 | 100 to 200 | 1080 | 60 kg | 110 |
NFR | jan-2010 | >100 | 880 | 52 kg | 112 |
:
He pensado en las siguientes formas -
1) Realización de series temporales separadas para cada combinación de variables independientes. Pero esto dará lugar a casi 400 series temporales, por lo que es tedioso estudiar todas las series temporales por separado.
2) Utilizar el tiempo como variable regresora: si el tiempo se considera una variable categórica y se codifica mediante una codificación de números enteros, los efectos como la estacionalidad y la autocorrelación en las series temporales no pueden modelarse. Si el tiempo se codifica con el método de codificación de un solo punto, es necesario crear unas 120 variables ficticias.
3) Añadir valores de retardo a los datos y utilizarlo como regresor junto con el regresor temporal. Pero, no estoy seguro de que esta sea la forma correcta, ya que he leído que no es una buena práctica.
4) Utilización del modelo de efecto fijo/efecto aleatorio. Se utiliza sobre todo en econometría y cuando T (número de puntos de tiempo) es menor que el número de parámetros, que no es el caso.
¿Cuál de las formas mencionadas es la mejor? ¿Hay alguna forma mejor de hacer predicciones con datos de panel?