Es la primera vez que posteo y me disculpo si la pregunta parece básica pero he buscado por todas partes la respuesta correcta pero no la he encontrado. Podría ser incluso un sí/no muy básico. Actualmente estoy construyendo un modelo para un proyecto para predecir el churn en un juego móvil f2p, lo que significa que los jugadores pueden elegir gastar dinero si desean avanzar más rápido. Mi preocupación es que tengo una serie de variables numéricas que se aplican sólo a los clientes que gastan. Por ejemplo, "tiempo hasta el gasto", "tiempo desde el último gasto", "desviación estándar de las compras" y similares. Otras variables de gasto, como "gasto total", "precio medio", etc., se pueden imputar como 0, pero los valores anteriores no.
El problema, por supuesto, es que no faltan de la manera tradicional, sino que simplemente no existen y no son posibles para estos clientes. No deseo factorizar las variables ya que creo que son más valiosas en su forma numérica. ¿Hay alguna manera de modelar esto en R sin tener que construir modelos independientes para los que gastan y los que no gastan? Lo más probable es que utilice la regresión logística y los árboles de decisión para mi problema. Gracias por su ayuda.