5 votos

Codificación "Don ' sabe" en Stata

Yo soy la codificación de un cuestionario en el programa STATA y hay una pregunta sobre el Padre de la Educación con la opción "no sé" al final. No estoy seguro de cómo el código, porque no quiero contar como falta variable, ya que los estudiantes que contesten el cuestionario podría haber sido criados por madres solteras, etc, y el "no saber" es una respuesta válida.

Me pregunto si debo código de cerca "Sin Educación" como sigue:

    recode father_educ2 (3=0 "No schooling")(11=1 "Don't Know")(4=2 "Elementary") ///
      (5=3 "Middle_School")(6=4 "High_School Incomplete")(7=5 "High_School Graduate") ///
      (8=6 "Some College")(9=7 "Bachelor Degree")(10=8 "Graduate Degree") ///
      (1 2 12 13=. "Missing data"), gen(father_educ)

o debo incluir después de Posgrado? los pensamientos?

Gracias nadie!

2voto

StasK Puntos 19497

Se extiende en @whuber comentarios, me gustaría que este código como una extendida falta de valor:

    recode ... (12 = .d "Don't know") (13 = .r "Refused") ///
      (1 = .n "Not applicable") (2 = .s "Skipped") ...

o algo como eso. Estos extendido etiqueta de los valores perdidos se muestran correctamente en tabulate ..., missing, pero sería adecuadamente excluidos de decir ordinal de regresión logística con el padre de la educación como una variable dependiente. Tan lejos como la inclusión de estas categorías en la regresión como una variable explicativa, que probablemente se trate de unos tres-cuatro categorías, como "Menos que la escuela secundaria", "la escuela secundaria o equivalente", "universidad", "la Universidad", "Graduado/profesional", puede ser la combinación de algunos de estos para que tenga razonable de 10% de los datos en cada categoría. La falta de datos, que es, probablemente, un pequeño porcentaje, puede ir en una categoría "Otros", o, hablando de manera realista, combinado con "Menos de la escuela secundaria", porque eso es lo que es probable que va a ser (al menos si se está hablando de Estados Unidos, que se parecen a hacer).

0voto

LBugnion Puntos 5095

Depende de qué tipo de análisis que queremos hacer, pero lo más probable es que usted debe codificar como falta, ya que de hecho se está perdiendo. Hay un cierto valor de la variable para cada observación, y no observar ese valor. Se observa que el estudiante por sí mismos no lo saben, pero esa información es probablemente irrelevante para cualquier análisis que se quiera hacer (por ejemplo, un salario de regresión).

Si su objetivo era conocer la cantidad de estudiantes que se sabía acerca de su distanciada de los padres, entonces me gustaría crear una nueva variable binaria, correspondiente a cada pregunta acerca de su padre, que indica si el estudiante sabía la respuesta o no. Pero probablemente eso no es lo que tienes en mente.

0voto

georg Puntos 1742

Como @Aelmore dijo, el mejor enfoque depende de exactamente lo que el modelado de que usted está haciendo, y lo que las preguntas de fondo que son, precisamente, tratando de responder. Si usted proporciona más detalle, me sentiría más cómodo ofreciendo sugerencias. Es el padre de la educación independiente/variable predictora en una regresión?

Se planteó la posibilidad de sustituir el "no sé" con la respuesta media. Esto es rápido y sucio, y creo que se justifica en algunos casos. Siempre que hago eso, yo también crear un poner un maniquí/indicador de la variable nota de que la variable que falta.

Usted también debe pensar en imputar el valor de una manera más sofisticada. Hay muchas posibilidades.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X