Motivación: fui contratada como becaria hace un par de semanas para averiguar si mi empresa necesarios para la compra de nuevas máquinas con seis meses de anticipación. Base de datos de las máquinas tomar hasta 4 meses para instalar y hay de 2 meses de periodo de gracia.
He firmado un contrato de confidencialidad, así que no creo que me puede dar datos reales.
La única información fiable que tengo ahora, es la información sobre el número de inicios de sesión y los registros de una compañía de educación, de 2002 a 2011. Creo que puedo conseguir más reciente información sobre los registros, y la gente está trabajando en obtener información de inicio de sesión. Nos detuvimos registro de información de inicio de sesión en el 2011, por lo que habrá una brecha de datos no cuando me tratan de pronosticar :(
La información se recoge a diario.
He creado una serie de tiempo de la previsión de los datos mediante R. he utilizado este tutorial http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html#arima-models Para hacer una holt winters modelo exponencial con frecuencia diaria (frecuencia = 365). Me he quitado el 29 de febrero a partir de los datos. Por desgracia, la brecha en los datos de inicio de sesión, significa que se tiene que tratar de manera más específica ARIMA derecho? Voy a ser capaz de utilizar arima si hay largas lagunas en los datos? También, el arima función en R no permite frecuencias de más de 350, y de que se agote la memoria rápidamente, así que tendría que usar mensual de un modelo (freq = 12). He intentado usar la transformada de fourier, pero las predicciones no se ven a la derecha de forma intuitiva. Ya quiero saber lo que el pico de usos, lo que si, creo que yo podría querer ser más específico. Es aceptar el uso de una frecuencia semanal (freq = 52) y acaba de quitar el 31 de diciembre?
Es de frecuencia diaria admisible? Como puedo utilizar el suavizado exponencial con frecuencia diaria aunque Septiembre 7, 2012 podría caer en domingo, mientras que el 7 de Septiembre de 2011 y de 2010 y 2009 podría ser todos los días de la semana. No es un diario, semanal y anual de la estacionalidad de la demanda y del número de inicios de sesión. Por ejemplo. 6pm, y el lunes, y septiembre son los más cargados en general que a las 4 de la madrugada, y los sábados, y de Mayo. Hay una estacionalidad anual en el número de registros.
He estado teniendo algunos problemas con el inicio de sesión predicciones El problema es que la variabilidad aumenta mucho antes de los 6 meses han pasado aún. En el 80% del intervalo de confianza. La proyección de la línea se extiende en 2012 y la zona naranja es el 80% de intervalo de confianza. El registro y el uso de aditivos de suavizado exponencial me dio mucho más variabilidad que multiplicativo de suavizado exponencial.
No es útil a la empresa para decir que "bien podría tener 8 jillion inicios de sesión en algún momento en los próximos 6 meses, y usted podría tener 20% más de lo que había el año pasado." ¿Cómo puedo reducir la varianza en la proyección?
http://img836.imageshack.us/img836/8460/holtwintersloginmultipl.png
Por último, yo estaba pensando que después de que me proyecciones, yo pondría los inicios de sesión y de registros en una red neuronal, y me gustaría poner algo como el tiempo promedio de espera en un par de máquinas como la variable de salida, y me gustaría pronóstico del pico de procesamiento se prevé la demanda de energía en 6 meses. Hay otras variables a considerar, como el de las versiones de software que cambiar la cpu de la demanda por usuario, pero tengo la esperanza de que la red neuronal se aprende cuando estos ocurren, o que son fáciles de detectar y de la cuenta. No tengo buenos datos sobre el promedio de tiempo de espera, pero suponiendo que me parece, es este un buen plan?