17 votos

Modelo de Cox frente a la regresión logística

Supongamos que se nos plantea el siguiente problema:

Predecir qué clientes tienen más probabilidades de dejar de comprar en nuestra tienda en los próximos 3 meses.
Para cada cliente sabemos el mes en que se empezó a comprar en nuestra tienda y además tenemos muchas características de comportamiento en agregados mensuales. El cliente "más antiguo" lleva comprando cincuenta meses; vamos a denotar el tiempo transcurrido desde que un cliente empezó a comprar por $t$ ( $t \in [0, 50]$ ). Se puede suponer que el número de clientes es muy grande. Si un cliente deja de comprar durante tres meses y luego vuelve, se le trata como un nuevo cliente, por lo que un evento (dejar de comprar) sólo puede ocurrir una vez.

Se me ocurren dos soluciones:

Regresión logística - Para cada cliente y cada mes (tal vez excepto los 3 meses más recientes), podemos decir si un cliente dejó de comprar o no, por lo que podemos hacer muestras continuas con una observación por cliente y mes. Podemos utilizar el número de meses desde el inicio como variable categórica para obtener algún equivalente de la función de riesgo base.

Modelo de Cox ampliado - Este problema también puede modelarse mediante el modelo de Cox ampliado. Parece que este problema es más adecuado para el análisis de supervivencia.

Pregunta: ¿Cuáles son las ventajas del análisis de supervivencia en problemas similares? El análisis de supervivencia se inventó por alguna razón, así que debe haber alguna ventaja importante.

Mis conocimientos en análisis de supervivencia no son muy profundos y creo que la mayoría de las ventajas potenciales del modelo de Cox también se pueden conseguir utilizando la regresión logística.

  • El equivalente del modelo estratificado de Cox puede obtenerse utilizando una interacción de $t$ y la variable de estratificación.
  • El modelo de interacción de Cox puede obtenerse dividiendo la población en varias subpoblaciones y estimando el LR para cada subpoblación.

La única ventaja que veo es que el modelo de Cox es más flexible; por ejemplo, podemos calcular fácilmente la probabilidad de que un cliente deje de comprar en 6 meses.

10voto

alexs77 Puntos 36

El problema del modelo de Cox es que no predice nada. El "intercepto" (función de peligro de la línea de base) en los modelos de Cox nunca se estima realmente. La regresión logística puede utilizarse para predecir el riesgo o la probabilidad de algún acontecimiento, en este caso: si un sujeto acude o no a comprar algo en un mes concreto.

El problema de los supuestos de la regresión logística ordinaria es que se trata cada observación persona-mes como independiente, independientemente de si se trata de la misma persona o del mismo mes en el que se produjeron las observaciones. Esto puede ser peligroso porque algunos artículos se compran en intervalos de dos meses, por lo que las observaciones persona-mes consecutivas son negativamente correlacionado. Alternativamente, un cliente puede ser retenido o perdido por las buenas o malas experiencias que conducen a observaciones consecutivas persona por mes son positivamente correlacionado.

Creo que un buen comienzo para este problema de predicción es adoptar el enfoque de la previsión, en el que podemos utilizar la información anterior para informar de nuestras predicciones sobre el negocio del mes siguiente. Un comienzo sencillo para este problema es ajustar un efecto retardado, o un indicador de si un sujeto había llegado en el último mes, como predictor de si podrían llegar este mes.

2 votos

¿No podría utilizarse aquí una regresión logística multinivel para resolver el problema de la independencia? El nivel 2 serían los clientes y el nivel 1 serían las medidas repetidas a lo largo del tiempo.

2 votos

@AdamO, la intercepción puede y combinado con la predicción del riesgo parcial del individuo, podemos crear curvas de supervivencia individuales. No sé por qué crees que el modelo de Cox no puede predecir "nada".

1 votos

@Cam.Davidson.Pilon la estimación de la función de peligro basal es un procedimiento auxiliar (función escalonada de Breslow) que debe realizarse de forma secundaria al modelo de Cox. Además, hay desacuerdo en el cálculo de los límites de incertidumbre ya que la covarianza entre la estimación del peligro acumulado y los parámetros del modelo no está clara. La página web $\delta$ -método con independencia asumida y los límites de Hall y Wellner son los que utilizo.

3voto

ocram Puntos 9992

Dejemos que $T_j$ es el tiempo que ha transcurrido desde que el cliente $j$ empieza a comprar hasta que deja de hacerlo. El análisis de supervivencia permite calcular probabilidades como $\Pr(T_j > 3)$ es decir, la probabilidad de que el cliente $j$ compra por lo menos $3$ meses.

El análisis de supervivencia tiene en cuenta que cada cliente tiene su propio tiempo de entrada en el estudio. Por lo tanto, el hecho de que el periodo de seguimiento varíe entre los clientes no es un problema.

Además, si el cliente $j$ no deja de comprar durante el periodo de estudio, entonces se registra la última hora de seguimiento y los datos se consideran censurados a la derecha. Las técnicas de análisis de supervivencia están diseñadas específicamente para manejar adecuadamente la censura.


Nota: Aquí hay un papel que muestra que, bajo algunas restricciones, tanto el modelo logístico como el de Cox están relacionados.

0 votos

Gracias por la respuesta. Si SA maneja correctamente la censura, esto implica que la solución LR no maneja correctamente la censura. ¿Cómo podría resultar esto? Todavía no puedo convencerme de que SA es mejor para un objetivo de tiempo fijo. ¿Puedo encontrar en algún lugar este artículo de forma gratuita?

0 votos

Supongo que grabarías $Y = 0$ (sin evento) para una observación censurada. Esto subestimaría la probabilidad de un evento, y podría dar lugar a sesgos. En cuanto al documento, puedo enviarlo si dejas una dirección de correo electrónico.

0 votos

Mi correo electrónico es: tomek.tarczynski@gmail.com ¡Muchas gracias!

2voto

JornC Puntos 81

La literatura de marketing sugiere aquí un Pareto/NBD o similar. Básicamente, se asume que la compra -mientras están comprando- sigue una distribución binomial negativa. Pero hay que modelar el momento en que el cliente deja de hacerlo. Esa es la otra parte.

Pete Fader y Bruce Hardie tienen algunos documentos sobre esto, junto con Abe.

Hay varias aproximaciones más sencillas al Pareto/NBD, incluso sólo contando los diversos trabajos de Fader y Hardie. NO utilices el enfoque más sencillo en el que se asume que la probabilidad de parar es constante en cada punto del tiempo -- eso significa que tus clientes más pesados tienen más probabilidades de abandonar antes. Es un modelo más sencillo de ajustar, pero erróneo.

Hace tiempo que no monto uno de estos; siento ser un poco inespecífico.

Aquí hay una referencia al documento de Abe, que reformula este problema como un Bayes jerárquico. . Si volviera a trabajar en este ámbito, creo que probaría este enfoque.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X