Se podría tratar como una situación de eventos recurrentes, en la que cada "consumo" individual representa un evento separado.* O se podría tratar como un modelo basado en el recuento, modelando el número de eventos en cada periodo de tiempo de observación. La mejor opción depende de la naturaleza de sus datos.
En primer lugar, asegúrese de que sus datos representan adecuadamente la información que tiene. Por ejemplo, no puedo saber si el cliente 2 fue visto por última vez en el periodo de tiempo 10, o si ha transcurrido un periodo de tiempo más largo pero no ha habido ningún consumo desde el periodo de tiempo 10. Su conjunto de datos debe mantener un registro del tiempo total transcurrido para cada individuo, incluso los tiempos sin consumo.
A continuación, observe los patrones de consumo acumulado a lo largo del tiempo, lo que tenderá a suavizar la variabilidad entre períodos. Hazlo para un gran número de clientes individuales. ¿Qué tipos de patrones se observan? ¿El consumo acumulado tiende a estancarse en periodos largos? Si es así, entonces podría tener sentido pensar en una "vida útil del cliente" finita. O bien, ¿el consumo acumulado tiende a seguir aumentando con el tiempo? En ese caso, puede que no haya una "vida útil del cliente" bien definida desde su perspectiva; en su lugar, podría tener sentido estimar simplemente una tasa media de actividad.
La forma de proceder a partir de entonces depende de los patrones de actividad que se observen. En el caso de un consumo acumulado que aumenta de forma continua, aunque aleatoria, un modelo de Poisson o binomial negativo podría funcionar para estimar las tasas, con los clientes tratados como efectos aleatorios. Cada cliente tendría entonces una tasa de actividad subyacente característica, con una distribución de tasas entre los clientes. Es un tipo de modelo lineal generalizado bastante estándar. Se modelarían los recuentos por periodo de tiempo, utilizando potencialmente el propio periodo de tiempo como predictor para ver si las tasas cambian sistemáticamente con el tiempo.
Si dicho modelo se ajusta a sus datos adecuadamente, entonces para un nuevo cliente podría intentar estimar la tasa a partir del comportamiento inicial.
Si el consumo acumulado tiende a estabilizarse en el tiempo, se podría utilizar un modelo de supervivencia de eventos recurrentes que tenga en cuenta los múltiples clientes. Este tipo de modelo también tendría que incorporar la censura en el tiempo de sus observaciones. Por ejemplo, si sólo han pasado 10 períodos de tiempo desde que el Cliente 2 entró en su conjunto de datos, ese Cliente no proporciona ninguna información sobre el comportamiento del cliente más allá de 10 períodos de tiempo. Usted no sabe cuál podría ser su consumo futuro, no puede suponer que no habrá más actividad. Los modelos de supervivencia lo tienen en cuenta.
Si tiene información sobre los clientes además de sus historiales de pedidos, sus modelos podrían utilizarlos como covariables para mejorar potencialmente las predicciones de los individuos.
En respuesta a los comentarios:
esto (también) implica que cada cliente del conjunto de datos de entrenamiento tiene que ser observado durante los mismos n periodos, ¿verdad?
No. Los individuos pueden ser observados durante diferentes períodos de tiempo. Se establece un time = 0
referencias para cada individuo, normalmente la hora en que el individuo entró por primera vez en su conjunto de datos. A continuación, para la evaluación inicial de los datos, se traza el número de eventos acumulados para cada individuo en función del tiempo en relación con la hora de inicio de ese individuo. Los gráficos de algunos individuos serán más largos que los de otros.
Tanto si se modela desde la perspectiva de la tasa de consumo como desde la perspectiva del "valor de vida del cliente", se puede utilizar cualquier información que se tenga. Por ejemplo, si está estimando las tasas por período de tiempo en un modelo mixto, utilizará la información sobre los pacientes que tiene para cada período de tiempo. Si está modelando recuentos totales, puede tener en cuenta el tiempo total de observación de un individuo con un término de compensación en un modelo de regresión. Un enfoque de análisis de supervivencia de eventos recurrentes tiene en cuenta naturalmente la "censura" en el último tiempo de observación de un individuo.
en este modelo de supervivencia de eventos recurrentes por qué el consumo acumulado tiene que estabilizarse con el tiempo.
No lo hace. Tienes que averiguar si es así antes de decidir cómo modelar. Si el consumo acumulado sigue aumentando indefinidamente para los individuos, entonces no hay indicios de una "vida útil del cliente" finita y hay que centrarse en cambio en el consumo tasa y si el tasa tiene algún patrón en función del tiempo. Si hay una meseta en el consumo acumulado, entonces podría haber un "tiempo de vida del cliente" finito que podría ser modelado en su deseo de estimar un "Valor de Vida del Cliente".
Tenía problemas por la literatura que vi para entender cómo incorporar esta dimensión de intensidad
Por la forma en que has presentado tu situación, parece que el "consumo" puede modelarse como recuento de eventos. Por ejemplo, eso podría ser modelar los clics en los anuncios en un sitio web, con cada clic que representa una unidad de "consumo". Cada evento de "consumo" es esencialmente el mismo, pero un individuo puede tener múltiples eventos de este tipo dentro de un período de tiempo.**
Para un proceso puntual, el La tasa instantánea de eventos subyacentes se llama en realidad "intensidad". Desde esta perspectiva, los modelos basados en el recuento modelan intrínsecamente la intensidad. La mejor manera de hacerlo depende de la naturaleza de sus datos: si debe modelar diferentes clientes como si tuvieran intensidades de base diferentes pero constantes individualmente, o si necesita modelar las intensidades como una función del tiempo (incluyendo el tiempo como un predictor en su modelo, en una forma sugerida por su conocimiento del tema, o en una forma flexible como un spline).
donde sugieres el modelo de Poisson o binomial negativo - ¿podrías citar una referencia aquí donde se discuta esto en un contexto (algo?) similar?
Una vez que conozcas los términos que debes buscar, encontrar referencias se vuelve un poco más fácil. Eso puede ayudar tanto si se analiza esto desde una perspectiva de supervivencia/eventos recurrentes como desde una perspectiva basada en procesos puntuales/conteo.
Para identificar referencias que puedan ayudar, puede pensar en cada uno de sus eventos de "consumo" repetidos como análogos a los ataques de asma repetidos, los ingresos hospitalarios repetidos, etc., en la literatura médica. O puede pensar en los datos de recuento a lo largo del tiempo que se basan menos en los eventos, como los recuentos de un tipo de célula en la sangre de los pacientes en las sucesivas visitas clínicas, o los recuentos de moléculas de ARN de diferentes tipos dentro de los individuos a lo largo del tiempo. La elección depende de nuevo de la naturaleza de los datos.
Como se indica en una parte revisada de la respuesta anterior, si se modelan los recuentos por período de tiempo, se podría tener un modelo lineal mixto generalizado bastante estándar basado en un proceso subyacente de Poisson o binomial negativo. El modelo Paquete lme4 en R proporciona herramientas para ambas cosas. Hay una gran cantidad de información disponible sobre cómo utilizar esas herramientas.
Una búsqueda en DuckDuckGo sobre recurrent event
Recientemente han aparecido muchas reseñas de libre acceso. Yadav et al. proporcionar una "visión general"; Thomsen et al. ilustrar los enfoques sobre un conjunto de datos concreto; Reliawiki tiene bonitas ilustraciones de gráficos de eventos acumulativos; Amorim y Cai ofrecer una tutoría que haga hincapié en la epidemiología; Rogers tiene un buen resumen en un paquete de diapositivas.
Una búsqueda en negative binomial point process mixed model
cubre muchos aspectos de su situación desde la perspectiva del proceso de puntos/conteo. El mixed model
permite tener en cuenta eficazmente las diferencias entre los individuos. El negative binomial
permite que la varianza de los recuentos sea algo distinto al número de recuentos que requiere un modelo de Poisson, algo que a menudo se necesita en la práctica. Esa búsqueda dio como resultado un artículo sobre la modelización Recuentos de células CD4 a lo largo del tiempo en pacientes , uno sobre el modelado el rebrote de los árboles tras los incendios y una sobre Recuentos de RNA-seq a lo largo del tiempo en individuos .
*Para un enfoque de supervivencia de eventos recurrentes, podría ser más sencillo utilizar los tiempos de los eventos individuales en lugar de agrupar los eventos en intervalos de tiempo como se muestra aquí.
*Si las naturalezas de los eventos pueden diferir, entonces tienes un escenario de eventos recurrentes multiestado. Si los eventos individuales tienen diferentes magnitudes de "consumo", entonces creo que las cosas se complican más si no puedes encajarlas fácilmente en un modelo multiestado (por ejemplo, en eventos "pequeños", "medianos" y "grandes"). Hay un paquete de R PtProcess que se utiliza para la sismología, un campo en el que los procesos puntuales difieren continuamente en magnitud, y podría ser útil (aunque no tengo experiencia en ello).