2 votos

Método sugerido para estimar las estadísticas del contador de la puerta cuando se pierden los datos

Me pregunto si tiene algún consejo sobre una metodología para estimar las estadísticas del "contador de puertas" (es decir, un recuento automatizado de los visitantes de nuestra organización, basado en los contadores de puertas de "viga de rotura" instalados en cada sucursal) cuando hay interrupciones y se pierden los datos.

Por ejemplo, digamos que el viernes pasado tuvimos 1055 visitantes y este viernes el contador de la puerta no funcionó, por lo que tenemos que hacer una estimación de los números. Supongo que obtener una media de los últimos x viernes es un enfoque, pero me pregunto cuál sería el enfoque más riguroso y transparente para la estimación.

2voto

AdamSane Puntos 1825

Por lo general, un buen enfoque se basará en algún tipo de modelo para el proceso, y debería ir acompañado de alguna evaluación del grado en que el modelo podría ser "lo suficientemente cercano" para sus propósitos.

Mirar el viernes anterior implica algunos aspectos de un modelo; en concreto, sugiere que usted piensa que: 1) el viernes pasado se parece más a este viernes que a otros días de la semana; y 2) la recencia importa: el viernes más reciente se parece más a este viernes que los viernes de hace tiempo. Usted tiene una serie temporal de recuentos, lo que sugiere modelar la distribución condicional de los recuentos de alguna manera, teniendo en cuenta la dependencia en el tiempo.

He aquí algunos puntos a tener en cuenta:

¿Existen otras fuentes de información que puedan actuar como predictores - promociones, por ejemplo?

¿Espera que la época del año (la estación, por ejemplo) o los efectos del calendario, como las vacaciones, sean importantes?

Los modelos de series temporales tienden a depender de una buena cantidad de información: ¿tiene datos que se remontan a un buen número de días?

¿Tiene también datos posteriores al día que falta (el próximo viernes podría ser al menos tan informativo como el viernes pasado)?

¿El número de visitantes tiende a crecer (o a disminuir) con el tiempo, aunque sea lentamente?

Podría ser útil consultar un buen libro sobre modelos de series temporales, y también algo sobre modelos para recuentos (como los GLM) antes de intentar abordar los modelos de series temporales de datos de recuento. Si sólo ha perdido el día (o los días) más reciente, básicamente tiene un problema de previsión, en cuyo caso un libro como ce es probablemente un buen lugar para empezar a aprender (no se ocupa realmente de los problemas de los datos de recuento); si el día que falta está en el pasado, tienes algo muy parecido a un alisado problema en términos de series temporales.

También puede resultar útil la bibliografía sobre la imputación de valores perdidos, aunque gran parte de ella tiende a centrarse más en el lado de la regresión.

Hay muchos posts aquí sobre modelos de series temporales para datos de conteo , Series temporales de Poisson (siendo el de Poisson un modelo de distribución bastante común para los recuentos) y una serie de otras búsquedas relevantes. Véase también una búsqueda en series temporales de conteo de datos faltantes

Si los recuentos típicos son grandes, puede que incluso le sirvan las series temporales estándar y los métodos de previsión/alisado aplicados a las raíces cuadradas de los recuentos, o en algunas situaciones ocasionales, un recuento logarítmico podría funcionar mejor. Por ejemplo, aquí hay un conjunto de datos (famoso) (pasajeros mensuales de aerolíneas [1]) en el que un modelo adecuado para el logaritmo de los recuentos funciona bastante bien para predecir un valor perdido:

enter image description here

[1] Box, G. E. P., Jenkins, G. M. y Reinsel, G. C. (1976)
Análisis de series temporales, previsión y control, Tercera edición.
Holden-Day. Serie G.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X