Tengo una gran encuesta en la cual los estudiantes se les preguntó, entre otras cosas, de su madre el nivel de educación. Algunos omiten, y algunos respondieron erróneamente. Sé que esto, porque hay una sub-muestra de la inicial de los encuestados de la madre más tarde fueron entrevistados, y le hizo la misma pregunta. (Estoy seguro de que hay algunos, en menor cantidad, de error asociado con el de las madres de las respuestas).
Mi reto, es decidir la mejor manera de tomar ventaja de esta segunda, la fuente más confiable de datos. Al menos puedo usar para imputar los datos faltantes de forma más inteligente de lo que yo sería capaz de si podía confiar sólo en casos completos. Pero si 3/4 de los niños cuyos datos puedo corroborar, los que responden "Mi madre no terminaron la escuela primaria" contradicen su madre la respuesta, parece que debo usar imputación a crear varios conjuntos de datos para capturar la incertidumbre que hay. [añadido: me dijo 3/4 para hacer un punto, pero ahora que he comprobado los datos que bien podría decirles que cerca de un 40% son discrepantes]
Yo personalmente voy a ser el uso de la educación de la madre como un predictor en un modelo mixto, pero si alguien tiene algo que decir acerca de otras situaciones me encantaría aprender acerca de ellos.
Me encantaría recibir asesoramiento en broadstrokes o en los detalles. Gracias!
Actualización: voy a dejar la pregunta sin resolver por ahora, aunque agradezco la Voluntad y Conjugate_Prior respuestas, mantengo la esperanza para más específica y técnica de retroalimentación.
El diagrama de dispersión a continuación le dará una idea de cómo las dos variables están relacionadas en los 10.000 casos donde ambos existen. Están anidadas, en más de 100 escuelas. Se relacionan a 0.78, Respuesta del Estudiante - media:5.12 s.d.=2.05, la Mamá de respuesta, media=5.02, s.d.=1.92 La respuesta del estudiante que falta en aproximadamente el 15% de los casos.