10 votos

Lo algoritmo puede ser utilizado para predecir los consumibles de uso de datos de compras del pasado?

El pensamiento acerca de un supuesto sencillo pero interesante problema, me gustaría escribir algo de código para la previsión de los consumibles que voy a necesitar en el futuro cercano, dada la historia completa de mis compras anteriores. Estoy seguro de que este tipo de problema tiene más genérico y bien estudiado definición (alguien sugirió esto está relacionado con algunos de los conceptos en sistemas ERP y similares).

Los datos que tengo es la historia completa de compras anteriores. Digamos que estoy buscando en el suministro de papel, mis datos (fecha, hojas):

2007-05-10   500
2007-11-11  1000
2007-12-18  1000
2008-03-25   500
2008-05-28  2000
2008-10-31  1500
2009-03-20  1500
2009-06-30  1000
2009-09-29   500
2009-12-16  1500
2010-05-31   500
2010-06-30   500
2010-09-30  1500
2011-05-31  1000

no es muestreado " a intervalos regulares, por lo que creo que no se puede considerar como una Serie de Tiempo de datos.

No tengo datos sobre el stock real de los niveles de cada vez. Me gustaría utilizar este sencillo y limitado de los datos para predecir la cantidad de papel que voy a necesitar en (por ejemplo) 3,6,12 meses.

Hasta ahora me vine a saber que es lo que estoy buscando se llama Extrapolación y no mucho más :)

Lo algoritmo puede ser utilizado en una situación así?

Y lo algoritmo, si es diferente de la anterior, también podría tomar ventaja de algo más de puntos de datos, dando a conocer el suministro de niveles (por ejemplo, si yo sé que en fecha X que yo tenía Y hojas de papel a la izquierda)?

Por favor, siéntase libre de editar la pregunta, título y etiquetas si usted sabe de una mejor terminología para esto.

EDIT: por lo que vale, voy a estar tratando este código en python. Sé que hay un montón de librerías que implementan más o menos, cualquier algoritmo de allí. En esta pregunta que me gustaría explorar los conceptos y las técnicas que se pueden utilizar, con la implementación real se deja como ejercicio para el lector.

12voto

jldugger Puntos 7490

La pregunta se refiere a la tasa de consumo en función del tiempo. Esto requiere de regresión de la velocidad contra el tiempo (no regresión del total de las compras contra el tiempo). La extrapolación se logra mediante la construcción de predicción de los límites para futuras compras.

Varios modelos son posibles. Dado el movimiento hacia una oficina sin papeles (que ha sido constante durante los últimos 25 años :-), se podría adoptar una exponencial (disminución) en el modelo. El resultado es representado por el siguiente diagrama de dispersión del consumo, en el que se dibuja la curva exponencial (equipada a través de mínimos cuadrados ordinarios para los logaritmos del consumo) y el 95% de la predicción de los límites. Valores extrapolados se esperaría que se encuentran cerca de la línea y entre la predicción de los límites con 95% de confianza.

Figure

El eje vertical muestra las páginas por día en una escala lineal. El azul oscuro la línea sólida es el ajuste: es realmente exponencial, pero viene muy cerca de ser lineal. El efecto del ajuste exponencial aparece en la predicción de las bandas, que en esta escala lineal son colocados de forma asimétrica alrededor del ajuste; en una escala logarítmica, que sería simétrica.

De una manera más precisa el modelo explicaría el hecho de que el consumo de información es más incierto en períodos más cortos de tiempo (o al total de las compras son más pequeños), lo que podría ser instalados usando mínimos cuadrados ponderados. Dada la variabilidad de estos datos y de la igualdad aproximada del tamaño de todas las compras, no vale la pena el esfuerzo extra.

Este enfoque se adapta intermedio de los datos del inventario, que puede ser utilizado para interpolar las tasas de consumo en los tiempos intermedios. En tal caso, debido a que el intermedio cantidades de consumo pueden variar considerablemente, los mínimos cuadrados ponderados enfoque sería aconsejable.

Lo de los pesos a utilizar? Podríamos considerar el consumo de papel, que necesariamente se acumula en integral cantidades de papel, como un recuento que varía de forma independiente a partir del día a día. Durante cortos periodos de tiempo, la variación de la cuenta por lo tanto, sería proporcional a la longitud del período. La varianza de la cuenta por día, entonces sería inversamente proporcional a la longitud del período. En consecuencia, el peso debe ser directamente proporcional proporcional a los periodos de tiempo transcurrido entre los inventarios. Así, por ejemplo, el consumo de 1000 hojas entre 2007-05-10 y 2007-11-11 (180 días), casi cinco veces el peso de los 1000 hoja de consumo entre 2007-11-11 y 2007-12-18, un período de sólo 37 días.

La misma ponderación que se puede acomodar en los intervalos de predicción. Esto podría resultar en la relativamente amplia de los intervalos de las predicciones para el consumo durante un día en comparación con la predicción para el consumo a lo largo de, digamos, tres meses.

Por favor, tenga en cuenta que estas sugerencias se centran en modelos sencillos y simples predicciones, adecuado para la aplicación prevista y de la obvia gran variabilidad en los datos. Si las proyecciones participan, digamos, el gasto de defensa de un país grande, queremos dar cabida a muchas más variables explicativas, de la cuenta de correlación temporal, y proporcionar una información mucho más detallada en el modelo.

6voto

John Channing Puntos 3264

Esta es sin duda la máquina de aprendizaje problema (he actualizado etiquetas en tu post). Probablemente, esta es la regresión lineal. En resumen, la regresión lineal intenta recuperar la relación entre 1 dependiente y 1 o más variables independientes. La variable dependiente es aquí consumibles de uso. Para las variables independientes sugiero intervalos de tiempo entre compra y compra. También puede agregar más variables independientes, por ejemplo, el número de personas que utilizan consumibles en cada momento, o cualquier otra cosa que puede afectar a una cantidad de compras. Usted puede encontrar buena descripción de la regresión lineal, junto con su implementación en Python aquí.

En teoría, también es posible que no sólo los intervalos de tiempo entre compra y compra, pero también momentos en el tiempo a sí mismo influyen en la cantidad. Por ejemplo, por alguna razón, en enero la gente puede querer más de papel que, por ejemplo, en el mes de abril. En este caso, usted puede utilizar el número de mes como variable independiente en sí mismo debido a la naturaleza de la regresión lineal a sí mismo (el número del mes es sólo una etiqueta, pero va a ser utilizado como cantidad). Así que tienes 2 maneras de cómo superar esto.

En primer lugar, usted puede agregar 12 variables adicionales, uno para cada mes, y el conjunto de cada variable a 1 si representa mes de la compra y a 0 si no. A continuación, utilice los mismos de regresión lineal.

En segundo lugar, usted puede utilizar el uso más sofisticado algoritmo, tales como M5', que es una mezcla de regresión lineal y de árboles de decisión (usted puede encontrar la descripción detallada de este algoritmo de Minería de Datos: la Práctica de la Máquina de Aprendizaje de Herramientas y Técnicas).

5voto

christy Puntos 51

no es muestreado " a intervalos regulares, por lo que creo que no cumple con los requisitos como una Serie de Tiempo de datos.

Aquí está una idea acerca de cómo previsión de las compras: se consideran los datos como un intermitente de la demanda de la serie. Es decir, usted tiene una serie de tiempo que se muestrea a intervalos regulares de tiempo, pero los valores positivos son, obviamente, irregularmente espaciados. Rob Hyndman tiene un buen papel en el uso de Croston del método para el pronóstico de demanda intermitente de la serie. Mientras yo también programa mucho en Python, te vas a ahorrar un montón de tiempo de exploración mediante el método de Croston, así como otras series de tiempo métodos de predicción, fácilmente disponible en Rob excelente paquete de R previsión.

3voto

AdamSane Puntos 1825

Comenzó como un comentario, creció demasiado tiempo...

no es muestreado " a intervalos regulares, por lo que creo que no se puede considerar como una Serie de Tiempo de datos

Esta es una conclusión errónea - es sin duda la serie de tiempo. Una serie de tiempo puede ser irregular de la muestra, que sólo tiende a requerir diferentes de los enfoques habituales cuando es.

Este problema parece estar relacionado con los problemas estocásticos como la de su madre niveles (agua que se utiliza generalmente en una relativamente estable de la tasa a lo largo del tiempo, a veces aumentando o disminuyendo más o menos rápidamente, mientras que otras veces su relativamente estable), mientras que la presa de los niveles tienden a sólo aumentar rápidamente (esencialmente en los saltos), ya que la lluvia se produce. El uso de papel y la reposición de los patrones puede ser algo similar (aunque la cantidad ordenada, tienden a ser mucho más estable y mucho más redondo de los números de las cantidades de lluvia, y se producen cuando el nivel es bajo).

Es también relativa a la compañía de seguros de capital (pero un poco invertida) - a un lado de capital inicial, el dinero de las primas (neto de los costos de funcionamiento y de inversiones viene en forma bastante estable (a veces más o menos), mientras que la póliza de seguro de pagos tienden a ser hecho en cantidades relativamente grandes.

Ambas cosas han sido modelados, y puede proporcionar un poco de conocimiento de este problema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X