Para responder a la pregunta directa, no. Como señala @PeterFlom, el 0 tiene la interpretación "visitado hoy". Es probable que ya tengas muchos 0 en tus datos de personas que hicieron precisamente eso.
No sé si llamaría a estos datos "desaparecidos". Los datos están todos ahí, sólo que la interpretación es un poco difícil. Para que quede claro, piense en lo que pasaría si imputara los datos que faltan: ¿a qué los imputaría? Te encuentras con el mismo problema. Sabes cuáles son los datos, pero no sabes cómo modelarlos.
Del mismo modo, si se codifica como NA, ¿qué significa eso para el modelo? Todavía hay que elegir cómo modelarlo. La supresión de filas funcionaría, pero modificaría la pregunta que está respondiendo a "Entre los visitantes anteriores...."
Algunas formas potenciales de modelar esto:
- Que sea un número realmente alto (cercano a $\infty$ )
- Crear un modelo de dos partes, cuya primera etapa modela la decisión de convertirse en "cliente" del sitio web, la segunda etapa es la que tiene ahora
- Cree un maniquí para el primer visitante (
first
), e interactuar con la variable número de días desde la última visita ( visit
). Por ejemplo, incluir first
y first*visit
sin incluir visit
.
De ellos, el modelo de 2 partes parece el más apropiado, pero es mucho más trabajo. Con los otros probablemente se obtendría algo razonable en caso de necesidad. Incluso podrías comparar los tres enfoques y obtener un análisis de sensibilidad aproximado.