6 votos

Regresión logística: ¿Es válido codificar NA como 0?

Hola, tengo el siguiente problema:

Tengo previsto hacer una regresión logística sobre los datos de tráfico de la web. Uno de mis atributos es el número de días desde la última visita (tipo numérico en R). Muchos de los visitantes son primerizos y no tengo datos para este atributo. ¿Debo codificarlos como NA, o es válido codificarlos como 0?

Gracias a todos

6voto

Zizzencs Puntos 1358

Yo diría que no. Si se trata de una variable numérica, el 0 sería menor que el 1, lo que indicaría que se trata de un visitante aún más frecuente; de hecho, el 0 tiene una interpretación sensata como "ha visitado el sitio hoy".

3voto

Craig Walker Puntos 13478

Para responder a la pregunta directa, no. Como señala @PeterFlom, el 0 tiene la interpretación "visitado hoy". Es probable que ya tengas muchos 0 en tus datos de personas que hicieron precisamente eso.

No sé si llamaría a estos datos "desaparecidos". Los datos están todos ahí, sólo que la interpretación es un poco difícil. Para que quede claro, piense en lo que pasaría si imputara los datos que faltan: ¿a qué los imputaría? Te encuentras con el mismo problema. Sabes cuáles son los datos, pero no sabes cómo modelarlos.

Del mismo modo, si se codifica como NA, ¿qué significa eso para el modelo? Todavía hay que elegir cómo modelarlo. La supresión de filas funcionaría, pero modificaría la pregunta que está respondiendo a "Entre los visitantes anteriores...."

Algunas formas potenciales de modelar esto:

  • Que sea un número realmente alto (cercano a $\infty$ )
  • Crear un modelo de dos partes, cuya primera etapa modela la decisión de convertirse en "cliente" del sitio web, la segunda etapa es la que tiene ahora
  • Cree un maniquí para el primer visitante ( first ), e interactuar con la variable número de días desde la última visita ( visit ). Por ejemplo, incluir first y first*visit sin incluir visit .

De ellos, el modelo de 2 partes parece el más apropiado, pero es mucho más trabajo. Con los otros probablemente se obtendría algo razonable en caso de necesidad. Incluso podrías comparar los tres enfoques y obtener un análisis de sensibilidad aproximado.

2voto

Niall Puntos 51

Si el resultado de interés es el número de días desde la última visita, entonces los usuarios de primera vez no proporcionan ninguna información sobre ese resultado, por lo que parece que dejar fuera a los visitantes de primera vez es lo único que se puede hacer.

En cualquier caso, la codificación de los usuarios de primera vez como 0 refleja la creencia de que los usuarios por primera vez son equivalentes a una persona que ya ha visitado el sitio web y cuya última visita fue hace 0 días, lo que no tiene mucho sentido. Por lo tanto, le desaconsejo encarecidamente que codifique de esta manera, ya que perjudicaría seriamente la interpretabilidad de sus resultados.

0voto

mat_geek Puntos 1367

Mi respuesta es ninguna de las dos cosas. Debe codificarlos como perdidos, un simple punto para los datos numéricos perdidos si utiliza SAS. El uso de 0 es malo porque el software tratará el 0 como un número cuando el punto de datos realmente falta. El uso de NA no es bueno porque tienes una variable numérica y estás mezclando valores de carácter y numéricos para la misma variable. Sin embargo, podría funcionar en SAS porque creo que SAS convertirá los valores que no reconoce en faltantes. Pero ir a lo seguro es identificar esos casos como datos numéricos perdidos. El procedimiento de modelización debería saber cómo tratar eso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X