¿Codificación como variable categórica o continua?

Question

¿Codificación como variable categórica o continua?

Preguntado el 13 de Abril, 2018: Cuando se hizo la pregunta
556 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo una pregunta/IV en mi estudio que ya ha sido respondida:

1- No
2- Do not know
3- Sometimes
4- Yes

Se me aconsejó que eliminara la respuesta 2 (todas las respuestas "no sabe") y que las considerara como datos que faltan, ya que esta respuesta no tiene mucho valor para la pregunta.

Así, acabé recodificando con

1- No
2- Sometimes 
3- Yes

¿Se consideraría esta variable continua o categórica en una regresión logística binaria?

Al introducirlo como factor continuo en una regresión logística binaria se observa que es un efecto significativo: los que puntuaron más alto (3) (lo que significaría que sí) tenían más probabilidades de realizar la conducta de VD.

Sin embargo, tengo muchas dudas de que esto sea estadísticamente correcto. ¿Debería esta variable considerarse categórica en mi regresión?

¿Debo mantener las respuestas de "no sabe"? En caso afirmativo, y si las considero continuas, ¿qué orden de respuesta (es decir, del 1 al 4) sería el más adecuado?

Preguntado el 13 de Abril, 2018 por Ali

0 votos

¿Cuántos datos tienes?

Comentado el 13 de Abril, 2018 por Beej

0 votos

Se trata de un modelo de regresión para 2 muestras distintas, cada una de ellas con unos 80 datos de encuestados

Comentado el 13 de Abril, 2018 por Ali

1 votos

Considerar una ordinal modelo de respuesta ...

Comentado el 13 de Abril, 2018 por Ben Bolker

Mostrar 3 comentarios más

Answer 1

2 Respuestas

Answer 2

11voto

Nick Cox Puntos 22819

Dadas estas categorías como datos fuera de mi control, codificaría

1 No 
2 Sometimes 
3 Yes 
4 Don't know

por estos motivos:

A veces suena más débil que Yes, que es más enfático.
No sé no suele formar parte de una secuencia ordenada.

Entonces, algunos análisis exigirán ignorar el 4 y otros no. Todo depende de la pregunta que se formule: por ejemplo, ¿estás describiendo los datos o modelizando?

Pero creo que es un error decir que "no lo sé" falta. Todos respondemos también a cuestionarios. Si se me permite decir "No lo sé" como una de varias respuestas posibles, eso no equivale en absoluto a que me niegue o decline responder a la pregunta. Como participante ocasional en encuestas y como estadístico, me opongo a que se analicen así los datos.

No hay motivos para llamar continua a esta variable. Es discreta. Sólo de 1 a 3 está ordenada, de 1 a 4 es sólo nominal o desordenada.

Un contexto de regresión logística no cambia la forma de pensar sobre la variable, a menos que se esté considerando como respuesta y se esté eligiendo entre logística ordinal y multinomial.

EDITAR

Pensando un poco más en esto, es difícil ver que "A veces" y "Sí" se excluyan mutuamente. ¿Cuáles son las preguntas? ¿Alguna vez comes carne, bebes alcohol, fumas tabaco?

Existe otro problema si a la gente se le presentan estas respuestas en este orden:

1- No
2- Do not know
3- Sometimes
4- Yes

Entonces es perfectamente posible que, racionalmente o no, algunas personas lo consideren una escala ordenada. Por ejemplo: "¿Aprueba el comportamiento de destacado político ?". Hay razones para decir que "No lo sé" está entre los extremos, como en "No sé lo suficiente o no quiero juzgar el tema". Pero entonces se espera que la gente conozca la diferencia entre "No sé" y "A veces". Eso puede ocurrir: Yo no tenía ni idea de lo que implicaba una afección médica menor hasta que me ocurrió y me la nombraron y explicaron.

Sin pruebas cualitativas sobre cómo se recibió o entendió el cuestionario, es muy difícil hacer algo más que especular.

Respondido el 13 de Abril, 2018 por Nick Cox (22819 Puntos )

1 votos

Entonces, ¿me recomiendan que lo codifique como arriba y luego lo utilice como una variable categórica en el modelo logístico binario? Por cierto, estoy modelando los datos

Comentado el 13 de Abril, 2018 por Ali

1 votos

Como se ha dicho, depende. O bien se utilizan los puntos 1 a 3 anteriores y pueden considerarse ordenados, o bien se utilizan los puntos 1 a 4 y pueden considerarse desordenados o nominales.

Comentado el 13 de Abril, 2018 por Nick Cox

0 votos

Entiendo, pero en ambos casos tendría que seleccionar esta es una variable catergórica en SPSS para esta prueba? ¿Podría explicarme mejor la interpretación, ya que nunca antes había utilizado una variable categórica en un modelo de este tipo? El resultado muestra la variable en 3 filas separadas (1), (2), (3), pero no estoy seguro de lo que significa cada una de ellas: algunas son significativas y otras no.

Comentado el 13 de Abril, 2018 por Ali

Mostrar 8 comentarios más

Answer 3

1voto

hellfur Puntos 33

(Suponiendo, para simplificar, que tratamos "No sabe" como si faltara:) Los tres enfoques sencillos son:

Codifíquelo como una covariable categórica. Si, por ejemplo, utiliza "No" como nivel de referencia, obtendrá dos coeficientes de la regresión: a) las probabilidades logarítmicas del resultado (en igualdad de condiciones, en términos generales) para un encuestado que responda "A veces" frente a otro que responda "No"; y b) las probabilidades logarítmicas del resultado para un encuestado que responda "Sí" frente a otro que responda "No". Desventaja: no se obtiene un valor por responder "Sí" frente a "A veces".
Se utiliza como variable continua. Desventaja, esto supone que la diferencia entre "No" y "A veces" es de la misma magnitud que la diferencia entre "A veces" y "Sí".
Supongo que podría decidir que lo único que le interesa es una elección binaria: "Sí" frente a "No" o "A veces", y volver a codificarla como una variable booleana. Pero eso elimina información.

También hay opciones más complejas. Esta respuesta tiene algunas ideas; y éste y los enlaces a los que apunta, le ofrecen muchos más.

Respondido el 13 de Abril, 2018 por hellfur (33 Puntos )

0 votos

Realicé la prueba según la opción 1- ¡produjo el resultado que esperaba y fácil de interpretar! Pero en cuanto añadí no sé, algunos coeficientes se volvieron negativos y todo se volvió bastante confuso. El único problema es que necesito las respuestas "no sabe", ya que no es correcto descartarlas sin más.

Comentado el 13 de Abril, 2018 por Ali

0 votos

Si quieres complicarte más, puedes codificar "no" como 0, "sí" 1 y "a veces" como x, y luego ver qué valor de x da el mejor resultado.

Comentado el 13 de Abril, 2018 por jgradim

¿Codificación como variable categórica o continua?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Codificación como variable categórica o continua?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: