Simplificando un poco, tengo cerca de un millón de registros que registre la hora de entrada y hora de salida de las personas en un sistema que abarca alrededor de diez años. Cada registro tiene una hora de entrada, pero no cada registro tiene un tiempo de salida. El tiempo medio en el sistema es de ~1 año.
La falta de salida de los tiempos de suceder por dos razones:
- La persona no ha dejado el sistema en el momento en que se capturaron los datos.
- La persona de la hora de salida no fue grabado. Esto sucede a decir que el 50% de los registros
Las preguntas de interés son:
- Son personas a pasar menos tiempo en el sistema, y cuánto menos tiempo.
- Son más salir de veces que se está grabando, y cuántos.
Podemos modelar esta diciendo que la probabilidad de que una salida se graba varía linealmente con el tiempo, y que el tiempo en el que el sistema tiene una Weibull cuyos parámetros varían linealmente con el tiempo. A continuación, podemos hacer una estimación de máxima verosimilitud de los diversos parámetros y el globo ocular de los resultados y considere plausible. Elegimos la distribución de Weibull, porque parece ser usados en la medición de tiempos de vida y es divertido decir como se opuso a que el ajuste de los datos mejor que decir una distribución gamma.
Donde debo buscar para obtener una idea de cómo hacer esto correctamente? Estamos algo matemáticamente inteligente, pero no muy estadísticamente inteligente.