5 votos

El objetivo es diseñar mecanismos de maximización del bienestar en un entorno en línea.

Yo trabajo en una línea de configuración de seguridad. Mi objetivo es detectar si el número de las cuentas bloqueadas por unidad de tiempo es estable o no. Yo he intentado con varios enfoques que a continuación se detalla, pero no estoy satisfecho todavía. Uno de los retos es lidiar con la fluctuación de cantidades de tráfico.

Si el total del tráfico sería constante a lo largo del tiempo, entonces una distribución de Poisson, que podría ayudarles. El bloqueo de cuentas puede ser visto como llegadas. Puesto que el tráfico fluctúa mucho en un día, es difícil probar por minuto o por hora. Pruebas por día podría ser una opción. Los períodos de vacaciones y los fines de semana podría mostrar demasiado baja de la observada los números, pero lo que más me interesa aumenta.

Un cambio de algoritmo de detección como ADWIN también podría ayudar. Si se aplica en el día de totales, la hipótesis sería que la por día el número de las cuentas bloqueadas debe ser estable. Los días con menor tráfico, podría ser un problema, como los fines de semana o en días festivos; o bien, el día después del fin de semana, que muestran un aumento. Una proporción parece más al punto.

Para mantener un seguimiento del tamaño de la muestra, una prueba de chi-cuadrado podría ser de ayuda. Uno podría probar proporciones independientes del tamaño de la muestra mientras las células se llenan con más de 5 observaciones. Las observaciones de la última hora podría ser fácilmente comparado con las observaciones de la última semana desde la prueba de chi-cuadrado toma las proporciones en cuenta. Algunos de bonferroni cosas deben estar en su lugar.

Yo he probado una red neuronal para la línea de base tráfico de predicción, pero este método parece inestable. Básicamente usa un predictor, la varianza de error y un error de valores atípicos de la regla. Este debe ser el estado del arte. La razón por la que no es tan estable es que el tráfico es muy dispar por minuto, aumenta y disminuye de 4 veces parece normal. Podría un promedio de más de horas en lugar de minutos hacer que este modelo funcione mejor?

Alguien tiene más sugerencias?

0voto

kjetil b halvorsen Puntos 7012

Tener un vistazo a los datos, sólo la frecuencia variable (segunda columna). Ya que es un recuento, el análisis de su raíz cuadrada. La función de autocorrelación se desintegra casi linealmente a cero en alrededor de 400 gal, sino que debe ser un artefacto de toda la noche ceros. Así, analizando sólo el bloque de datos hasta el primer bloque de ceros, freq[1:934], la función de autocorrelación es más sensato, distinto de cero sólo en el primer retraso, con valor hay alrededor de 0.3. Trazado que parte de la serie, es extraño, casi constante con valores de alrededor de 20, con unos valores mucho más grande de lo que viene en ráfagas. Para describir la serie con una función de autocorrelación no es una descripción muy buena, tal vez algún tipo de ocultos de Markov proceso de dar un mejor modelo, con una casi constante régimen, y otro estallido régimen y, a continuación, el cero del régimen. Usted podría tratar de que!

EDIT

Respondiendo a la pregunta en los comentarios: los datos de recuento, a menudo son de poisson-distribuido, al menos, que es el modelo más simple para la cuenta. Y, la raíz cuadrada es la varianza de la estabilización de la transformación de la distribución de Poisson de la familia. Es decir, mientras que nosotros tenemos que, para$X\sim \text{Po}(\lambda)$,$\text{Var}(X)=\lambda$,$\text{Var}(\sqrt{X})\approx \frac14$, aproximadamente independiente de $\lambda$. Y, muchos de los métodos estadísticos, como el de los mínimos cuadrados y la mayoría de los modelos de la serie como ARIMA, que funciona mejor para datos que tienen una variación independiente de su media.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X