Estoy construyendo un modelo para predecir la pérdida de clientes utilizando el análisis de supervivencia, la regresión COX en particular. Si bien es bastante sencillo recopilar los eventos de abandono de clientes, es un poco complicado tomar muestras de los eventos no abandonados. Creo que es seguro incluir los servicios que se renovaron al final del plazo como eventos no cambiados. Debido a la naturaleza de nuestros servicios (basados en la suscripción), los plazos de los contratos oscilan entre 3 y 10 años. Así que no es de extrañar que los eventos de churn y las renovaciones se produzcan normalmente al final del plazo.
Sin embargo, hay muchos más servicios activos con diferentes meses en sus plazos (tenencia). ¿Debería considerarlos como no eventos? Uno de los posibles problemas es que hará que el conjunto de datos esté extremadamente desequilibrado. El mes de duración de los servicios actuales es muy variado. Algunos de ellos acaban de empezar hace un mes. Tal vez tenga que elegir selectivamente algunos de los servicios activos con mayor permanencia. ¿Cuál sería un buen enfoque para el muestreo de estas muestras de servicios actuales?