23 votos

Regresión logística para series temporales

Me gustaría utilizar un modelo de regresión logística binaria en el contexto de los datos de flujo (series temporales multidimensionales) para predecir el valor de la variable dependiente de los datos (es decir, la fila) que acaba de llegar, dadas las observaciones pasadas. Por lo que sé, la regresión logística se utiliza tradicionalmente para el análisis postmortem, en el que cada variable dependiente ya ha sido fijada (bien por la inspección, bien por la naturaleza del estudio).

Sin embargo, lo que ocurre en el caso de las series temporales, donde queremos hacer una predicción (sobre la marcha) sobre la variable dependiente en términos de datos históricos (por ejemplo, en una ventana de tiempo del último $t$ segundos) y, por supuesto, las estimaciones previas de la variable dependiente?

Y si ves el sistema anterior a lo largo del tiempo, ¿cómo debería construirse para que la regresión funcione? ¿Tenemos que entrenarlo primero etiquetando, digamos, las primeras 50 filas de nuestros datos (es decir, estableciendo la variable dependiente en 0 o 1) y luego utilizar la estimación actual del vector ${\beta}$ para estimar la nueva probabilidad de que la variable dependiente sea 0 o 1 para los datos que acaban de llegar (es decir, la nueva fila que se acaba de añadir al sistema)?

Para aclarar mi problema, estoy tratando de construir un sistema que analiza un conjunto de datos fila por fila y trata de hacer la predicción de un resultado binario (variable dependiente) , dado el conocimiento (observación o estimación) de todas las variables dependientes o explicativas anteriores que han llegado en una ventana de tiempo fija. Mi sistema está en Rerl y utiliza R para la inferencia.

6 votos

¿puede suponer una estructura de correlación en sus datos? Su caso es un caso especial de GLMM con enlace logit, pero la estructura de correlación en los datos de series temporales debe modelarse correctamente para obtener una respuesta razonable.

0 votos

Hay términos de interacción en mi conjunto de datos original y también hay una alta correlación entre algunos de ellos, pero puedo excluirlos haciendo una regresión logística inicial a todo el conjunto de datos utilizando SPSS para eliminar la multicolinealidad. Así, puedo mantener los términos que tienen una correlación inferior a 0,3. En el caso que describes, ¿necesitamos tener correlación o sólo conocer la matriz de correlaciones?

1 votos

Cuando dices series temporales, $y_t$ tendría algún tipo de relación con $y_{t-1}$ . ¿O se puede suponer que es independiente?

8voto

viky Puntos 343

Hay que tener en cuenta dos métodos:

  1. Sólo utiliza las últimas N muestras de entrada. Asumiendo que tu señal de entrada es de dimensión D, entonces tienes N*D muestras por etiqueta de verdad. De este modo, puedes entrenar usando cualquier clasificador que quieras, incluyendo la regresión logística. De esta manera, cada salida se considera independiente de todas las demás salidas.

  2. Utilice las últimas N muestras de entrada y las últimas N salidas que haya generado. El problema es entonces similar a decodificación viterbi . Se podría generar una puntuación no binaria basada en las muestras de entrada, y combinar la puntuación de múltiples muestras utilizando un decodificador viterbi. Esto es mejor que el método 1. si ahora algo sobre la relación temporal entre las salidas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X