1 votos

Modelización con variable numérica ausente condicional en R

Es la primera vez que posteo y me disculpo si la pregunta parece básica pero he buscado por todas partes la respuesta correcta pero no la he encontrado. Podría ser incluso un sí/no muy básico. Actualmente estoy construyendo un modelo para un proyecto para predecir el churn en un juego móvil f2p, lo que significa que los jugadores pueden elegir gastar dinero si desean avanzar más rápido. Mi preocupación es que tengo una serie de variables numéricas que se aplican sólo a los clientes que gastan. Por ejemplo, "tiempo hasta el gasto", "tiempo desde el último gasto", "desviación estándar de las compras" y similares. Otras variables de gasto, como "gasto total", "precio medio", etc., se pueden imputar como 0, pero los valores anteriores no.

El problema, por supuesto, es que no faltan de la manera tradicional, sino que simplemente no existen y no son posibles para estos clientes. No deseo factorizar las variables ya que creo que son más valiosas en su forma numérica. ¿Hay alguna manera de modelar esto en R sin tener que construir modelos independientes para los que gastan y los que no gastan? Lo más probable es que utilice la regresión logística y los árboles de decisión para mi problema. Gracias por su ayuda.

1voto

EdM Puntos 5716

En la regresión, la forma estándar de manejar esto es añadir un predictor categórico al modelo que indica, en su ejemplo, si cada cliente eligió gastar. Esto se explica muy bien en al menos dos páginas de Cross Validated, aquí y aquí . Para los que no gastan en un análisis de regresión, puede establecer los valores de las variables relacionadas con el gasto en 0 y obtener resultados útiles, ya que los coeficientes de las variables relacionadas con el gasto sólo se añadirán al modelo para los clientes que decidieron gastar.

No he pensado si este enfoque funcionará para los modelos basados en árboles. Mi primera suposición es que, en el caso de los árboles, podría ser necesario establecer un conjunto separado de categorías para distinguir a los no gastadores de los gastadores que tienen un valor de 0 para cada predictor relacionado con el gasto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X