0 votos

Cómo muestrear los datos sin eventos para el análisis de supervivencia

Estoy construyendo un modelo para predecir la pérdida de clientes utilizando el análisis de supervivencia, la regresión COX en particular. Si bien es bastante sencillo recopilar los eventos de abandono de clientes, es un poco complicado tomar muestras de los eventos no abandonados. Creo que es seguro incluir los servicios que se renovaron al final del plazo como eventos no cambiados. Debido a la naturaleza de nuestros servicios (basados en la suscripción), los plazos de los contratos oscilan entre 3 y 10 años. Así que no es de extrañar que los eventos de churn y las renovaciones se produzcan normalmente al final del plazo.

Sin embargo, hay muchos más servicios activos con diferentes meses en sus plazos (tenencia). ¿Debería considerarlos como no eventos? Uno de los posibles problemas es que hará que el conjunto de datos esté extremadamente desequilibrado. El mes de duración de los servicios actuales es muy variado. Algunos de ellos acaban de empezar hace un mes. Tal vez tenga que elegir selectivamente algunos de los servicios activos con mayor permanencia. ¿Cuál sería un buen enfoque para el muestreo de estas muestras de servicios actuales?

2voto

Timothy Puntos 26

Lo que tiene que hacer para todas sus diferentes ofertas/productos (contratos) es decidir la duración del periodo de seguimiento. Puede tener una inscripción dinámica en la que los clientes siempre se inscriban, pero en cualquier caso, el período de tiempo en el que se determina el fracaso (abandono) o la renovación (no fracaso) tiene que ser el mismo. Por lo tanto, el modelo de Cox para el contrato de larga duración establecerá fail=1 si el cliente abandona el contrato antes de 10 años después de la inscripción inicial. El tiempo de supervivencia es desde la fecha del primer contrato hasta la fecha de la renovación (ya que se sabe que se ha renovado antes de los 10 años). La fecha de fracaso para los que no han cambiado es la fecha del primer contrato hasta la última fecha de renovación conocida, no hoy. Pero se puede suponer que es hoy para los que no han cambiado, siempre que sea menos de 10 años.

También se supone que debe tener una o más variables de agrupación para los predictores, así que tal vez sea un precio frente a los clientes con descuento o cupón (frente a los clientes antiguos).

Una vez hecho esto, cada cliente tendrá fail=0 o fail=1 (dentro de 10 años) y un tiempo de supervivencia. Para el churned, el tiempo de supervivencia es el tiempo entre el primer contrato y el momento del churned. En el caso de los clientes que no se han dado de baja, el tiempo de supervivencia es desde la fecha del primer contrato hasta la última renovación o hasta hoy, si están activos. Los clientes que prolongaron su contrato durante más de 10 años tendrán su tiempo de supervivencia fijado en 10 años, ya que se está especificando que la duración del seguimiento de cada cliente está, por ejemplo, limitada a 10 años.

Cuando se hace, básicamente se tienen 2 grupos, batidos y no batidos. Los "churned" obtienen fail=1, y su tiempo es la fecha churned menos la fecha del primer contrato. Para los "censurados", que no han hecho churn, su fail=0 y su tiempo es hoy menos la fecha de su primer contrato. Los tiempos superiores a 10 años se truncan (se ajustan) a 10 años. Si el programa fuera de hace décadas, en lugar de utilizar la fecha de hoy, habría que asegurarse de que el tiempo de supervivencia de ningún cliente es superior a 10 años.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X