Tengo un conjunto de datos que contiene el id de muchos clientes, y sus características de comportamiento medido cada mes antes de churn o censurado. Los datos se ven así:
id || período de vida || tiempo de seguimiento antes del churn de censores || churn o censurado || gran lista de variables de comportamiento ||.
Cada ID existe muchas veces en mi conjunto de datos durante su vida.
Quiero construir un modelo que me permita calcular la probabilidad de abandono de cada cliente para cada uno de sus períodos de vida futuros y actualizar esta probabilidad cada mes durante la vida de los clientes. Empecé con la regresión de Cox con covariables que varían en el tiempo, pero me di cuenta de que no es apropiada para la predicción. Ahora empecé a construir un modelo de riesgos proporcionales de Cox.
¿Es una opción adecuada para mis propósitos? ¿Debo construir un nuevo modelo para cada período de vida? ¿O puedo incluir en la muestra del tren muchas observaciones para cada ID pero con diferentes covariables y diferentes tiempos de seguimiento?