5 votos

¿Codificación como variable categórica o continua?

Tengo una pregunta/IV en mi estudio que ya ha sido respondida:

1- No
2- Do not know
3- Sometimes
4- Yes

Se me aconsejó que eliminara la respuesta 2 (todas las respuestas "no sabe") y que las considerara como datos que faltan, ya que esta respuesta no tiene mucho valor para la pregunta.

Así, acabé recodificando con

1- No
2- Sometimes 
3- Yes

¿Se consideraría esta variable continua o categórica en una regresión logística binaria?

Al introducirlo como factor continuo en una regresión logística binaria se observa que es un efecto significativo: los que puntuaron más alto (3) (lo que significaría que sí) tenían más probabilidades de realizar la conducta de VD.

Sin embargo, tengo muchas dudas de que esto sea estadísticamente correcto. ¿Debería esta variable considerarse categórica en mi regresión?

¿Debo mantener las respuestas de "no sabe"? En caso afirmativo, y si las considero continuas, ¿qué orden de respuesta (es decir, del 1 al 4) sería el más adecuado?

0 votos

¿Cuántos datos tienes?

0 votos

Se trata de un modelo de regresión para 2 muestras distintas, cada una de ellas con unos 80 datos de encuestados

1 votos

Considerar una ordinal modelo de respuesta ...

10voto

Nick Cox Puntos 22819

Dadas estas categorías como datos fuera de mi control, codificaría

1 No 
2 Sometimes 
3 Yes 
4 Don't know 

por estos motivos:

  1. A veces suena más débil que Yes, que es más enfático.

  2. No sé no suele formar parte de una secuencia ordenada.

Entonces, algunos análisis exigirán ignorar el 4 y otros no. Todo depende de la pregunta que se formule: por ejemplo, ¿estás describiendo los datos o modelizando?

Pero creo que es un error decir que "no lo sé" falta. Todos respondemos también a cuestionarios. Si se me permite decir "No lo sé" como una de varias respuestas posibles, eso no equivale en absoluto a que me niegue o decline responder a la pregunta. Como participante ocasional en encuestas y como estadístico, me opongo a que se analicen así los datos.

No hay motivos para llamar continua a esta variable. Es discreta. Sólo de 1 a 3 está ordenada, de 1 a 4 es sólo nominal o desordenada.

Un contexto de regresión logística no cambia la forma de pensar sobre la variable, a menos que se esté considerando como respuesta y se esté eligiendo entre logística ordinal y multinomial.

EDITAR

Pensando un poco más en esto, es difícil ver que "A veces" y "Sí" se excluyan mutuamente. ¿Cuáles son las preguntas? ¿Alguna vez comes carne, bebes alcohol, fumas tabaco?

Existe otro problema si a la gente se le presentan estas respuestas en este orden:

1- No
2- Do not know
3- Sometimes
4- Yes

Entonces es perfectamente posible que, racionalmente o no, algunas personas lo consideren una escala ordenada. Por ejemplo: "¿Aprueba el comportamiento de destacado político ?". Hay razones para decir que "No lo sé" está entre los extremos, como en "No sé lo suficiente o no quiero juzgar el tema". Pero entonces se espera que la gente conozca la diferencia entre "No sé" y "A veces". Eso puede ocurrir: Yo no tenía ni idea de lo que implicaba una afección médica menor hasta que me ocurrió y me la nombraron y explicaron.

Sin pruebas cualitativas sobre cómo se recibió o entendió el cuestionario, es muy difícil hacer algo más que especular.

1 votos

Entonces, ¿me recomiendan que lo codifique como arriba y luego lo utilice como una variable categórica en el modelo logístico binario? Por cierto, estoy modelando los datos

1 votos

Como se ha dicho, depende. O bien se utilizan los puntos 1 a 3 anteriores y pueden considerarse ordenados, o bien se utilizan los puntos 1 a 4 y pueden considerarse desordenados o nominales.

0 votos

Entiendo, pero en ambos casos tendría que seleccionar esta es una variable catergórica en SPSS para esta prueba? ¿Podría explicarme mejor la interpretación, ya que nunca antes había utilizado una variable categórica en un modelo de este tipo? El resultado muestra la variable en 3 filas separadas (1), (2), (3), pero no estoy seguro de lo que significa cada una de ellas: algunas son significativas y otras no.

1voto

hellfur Puntos 33

(Suponiendo, para simplificar, que tratamos "No sabe" como si faltara:) Los tres enfoques sencillos son:

  1. Codifíquelo como una covariable categórica. Si, por ejemplo, utiliza "No" como nivel de referencia, obtendrá dos coeficientes de la regresión: a) las probabilidades logarítmicas del resultado (en igualdad de condiciones, en términos generales) para un encuestado que responda "A veces" frente a otro que responda "No"; y b) las probabilidades logarítmicas del resultado para un encuestado que responda "Sí" frente a otro que responda "No". Desventaja: no se obtiene un valor por responder "Sí" frente a "A veces".

  2. Se utiliza como variable continua. Desventaja, esto supone que la diferencia entre "No" y "A veces" es de la misma magnitud que la diferencia entre "A veces" y "Sí".

  3. Supongo que podría decidir que lo único que le interesa es una elección binaria: "Sí" frente a "No" o "A veces", y volver a codificarla como una variable booleana. Pero eso elimina información.

También hay opciones más complejas. Esta respuesta tiene algunas ideas; y éste y los enlaces a los que apunta, le ofrecen muchos más.

0 votos

Realicé la prueba según la opción 1- ¡produjo el resultado que esperaba y fácil de interpretar! Pero en cuanto añadí no sé, algunos coeficientes se volvieron negativos y todo se volvió bastante confuso. El único problema es que necesito las respuestas "no sabe", ya que no es correcto descartarlas sin más.

0 votos

Si quieres complicarte más, puedes codificar "no" como 0, "sí" 1 y "a veces" como x, y luego ver qué valor de x da el mejor resultado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X