Me gustaría utilizar un modelo de regresión logística binaria en el contexto de los datos de flujo (series temporales multidimensionales) para predecir el valor de la variable dependiente de los datos (es decir, la fila) que acaba de llegar, dadas las observaciones pasadas. Por lo que sé, la regresión logística se utiliza tradicionalmente para el análisis postmortem, en el que cada variable dependiente ya ha sido fijada (bien por la inspección, bien por la naturaleza del estudio).
Sin embargo, lo que ocurre en el caso de las series temporales, donde queremos hacer una predicción (sobre la marcha) sobre la variable dependiente en términos de datos históricos (por ejemplo, en una ventana de tiempo del último $t$ segundos) y, por supuesto, las estimaciones previas de la variable dependiente?
Y si ves el sistema anterior a lo largo del tiempo, ¿cómo debería construirse para que la regresión funcione? ¿Tenemos que entrenarlo primero etiquetando, digamos, las primeras 50 filas de nuestros datos (es decir, estableciendo la variable dependiente en 0 o 1) y luego utilizar la estimación actual del vector ${\beta}$ para estimar la nueva probabilidad de que la variable dependiente sea 0 o 1 para los datos que acaban de llegar (es decir, la nueva fila que se acaba de añadir al sistema)?
Para aclarar mi problema, estoy tratando de construir un sistema que analiza un conjunto de datos fila por fila y trata de hacer la predicción de un resultado binario (variable dependiente) , dado el conocimiento (observación o estimación) de todas las variables dependientes o explicativas anteriores que han llegado en una ventana de tiempo fija. Mi sistema está en Rerl y utiliza R para la inferencia.
6 votos
¿puede suponer una estructura de correlación en sus datos? Su caso es un caso especial de GLMM con enlace logit, pero la estructura de correlación en los datos de series temporales debe modelarse correctamente para obtener una respuesta razonable.
0 votos
Hay términos de interacción en mi conjunto de datos original y también hay una alta correlación entre algunos de ellos, pero puedo excluirlos haciendo una regresión logística inicial a todo el conjunto de datos utilizando SPSS para eliminar la multicolinealidad. Así, puedo mantener los términos que tienen una correlación inferior a 0,3. En el caso que describes, ¿necesitamos tener correlación o sólo conocer la matriz de correlaciones?
1 votos
Cuando dices series temporales, $y_t$ tendría algún tipo de relación con $y_{t-1}$ . ¿O se puede suponer que es independiente?
0 votos
Acabo de comprobar la autocorrelación con Matlab y he encontrado que hay un alto lag-1 acf en algunas variables (3 de las seis).
0 votos
Lo que ocurre es que esas variables son los promedios temporales de algunas cantidades a lo largo de unas ventanas temporales fijas, pero se puede suponer que las cantidades iniciales son independientes.
2 votos
¿podría darme una descripción concisa de sus datos para poder darle una solución concreta? su problema puede resolverse de la siguiente manera stat.ethz.ch/pipermail/r-sig-mixed-models/2010q4/004530.html
2 votos
Tengo una serie temporal de tráfico de red de la siguiente forma: Protocol,SrcIP SrcPort,DestIP,DestPort,TimeSec,Timeusec,PackLength TCP,200.80.199.105,3523,207.216.233.144,9658,11223344,941818,62 UDP,142.144.155.120,1751,244.72. 151.2,1935, 11223344,941843,60 Quiero estimar si un paquete (o grupo de paquetes) es malicioso utilizando el conocimiento de conjuntos de datos etiquetados para construir un modelo autoentrenado. El promedio del que hablaba se aplica a las métricas anteriores para dar un nivel de agregación y hacer que el sistema sea más práctico para el tráfico de gran volumen.
2 votos
Esto suena realmente como un trabajo para una máquina de vectores de soporte. ¿Me estoy perdiendo algo? Si realmente te preocupa la autocorrelación o la estructura temporal de los datos, puedes probar con ARIMA y/o un modelo longitudinal multinivel. En cuanto a los modelos longitudinales, recomiendo el libro de Willet y Singer Análisis longitudinal de datos aplicado para lo cual el Sitio ATS de UCLA tiene ejemplos de código R.
0 votos
Estoy de acuerdo con ashaw. Parece que tienes entradas de ambas clases para ayudarte a entrenar una SVM de 2 clases. Sin embargo, lo que hacemos para predecir comportamientos anómalos en sistemas informáticos es entrenar SVM de 1 clase, porque no siempre tenemos datos de entrenamiento para los casos malos.