Supongamos que se nos plantea el siguiente problema:
Predecir qué clientes tienen más probabilidades de dejar de comprar en nuestra tienda en los próximos 3 meses.
Para cada cliente sabemos el mes en que se empezó a comprar en nuestra tienda y además tenemos muchas características de comportamiento en agregados mensuales. El cliente "más antiguo" lleva comprando cincuenta meses; vamos a denotar el tiempo transcurrido desde que un cliente empezó a comprar por $t$ ( $t \in [0, 50]$ ). Se puede suponer que el número de clientes es muy grande. Si un cliente deja de comprar durante tres meses y luego vuelve, se le trata como un nuevo cliente, por lo que un evento (dejar de comprar) sólo puede ocurrir una vez.
Se me ocurren dos soluciones:
Regresión logística - Para cada cliente y cada mes (tal vez excepto los 3 meses más recientes), podemos decir si un cliente dejó de comprar o no, por lo que podemos hacer muestras continuas con una observación por cliente y mes. Podemos utilizar el número de meses desde el inicio como variable categórica para obtener algún equivalente de la función de riesgo base.
Modelo de Cox ampliado - Este problema también puede modelarse mediante el modelo de Cox ampliado. Parece que este problema es más adecuado para el análisis de supervivencia.
Pregunta: ¿Cuáles son las ventajas del análisis de supervivencia en problemas similares? El análisis de supervivencia se inventó por alguna razón, así que debe haber alguna ventaja importante.
Mis conocimientos en análisis de supervivencia no son muy profundos y creo que la mayoría de las ventajas potenciales del modelo de Cox también se pueden conseguir utilizando la regresión logística.
- El equivalente del modelo estratificado de Cox puede obtenerse utilizando una interacción de $t$ y la variable de estratificación.
- El modelo de interacción de Cox puede obtenerse dividiendo la población en varias subpoblaciones y estimando el LR para cada subpoblación.
La única ventaja que veo es que el modelo de Cox es más flexible; por ejemplo, podemos calcular fácilmente la probabilidad de que un cliente deje de comprar en 6 meses.