9 votos

La imputación a la cuenta de error sistemático en las respuestas de la encuesta

Tengo una gran encuesta en la cual los estudiantes se les preguntó, entre otras cosas, de su madre el nivel de educación. Algunos omiten, y algunos respondieron erróneamente. Sé que esto, porque hay una sub-muestra de la inicial de los encuestados de la madre más tarde fueron entrevistados, y le hizo la misma pregunta. (Estoy seguro de que hay algunos, en menor cantidad, de error asociado con el de las madres de las respuestas).

Mi reto, es decidir la mejor manera de tomar ventaja de esta segunda, la fuente más confiable de datos. Al menos puedo usar para imputar los datos faltantes de forma más inteligente de lo que yo sería capaz de si podía confiar sólo en casos completos. Pero si 3/4 de los niños cuyos datos puedo corroborar, los que responden "Mi madre no terminaron la escuela primaria" contradicen su madre la respuesta, parece que debo usar imputación a crear varios conjuntos de datos para capturar la incertidumbre que hay. [añadido: me dijo 3/4 para hacer un punto, pero ahora que he comprobado los datos que bien podría decirles que cerca de un 40% son discrepantes]

Yo personalmente voy a ser el uso de la educación de la madre como un predictor en un modelo mixto, pero si alguien tiene algo que decir acerca de otras situaciones me encantaría aprender acerca de ellos.

Me encantaría recibir asesoramiento en broadstrokes o en los detalles. Gracias!

Actualización: voy a dejar la pregunta sin resolver por ahora, aunque agradezco la Voluntad y Conjugate_Prior respuestas, mantengo la esperanza para más específica y técnica de retroalimentación.

El diagrama de dispersión a continuación le dará una idea de cómo las dos variables están relacionadas en los 10.000 casos donde ambos existen. Están anidadas, en más de 100 escuelas. Se relacionan a 0.78, Respuesta del Estudiante - media:5.12 s.d.=2.05, la Mamá de respuesta, media=5.02, s.d.=1.92 La respuesta del estudiante que falta en aproximadamente el 15% de los casos.

enter image description here

5voto

Ravs Puntos 11

Si vas a asumir que la "contradicción" de la misma para la totalidad de la muestra como para la submuestra de madres que fueron encuestados, a continuación, la submuestra debe haber sido elegidos al azar. En su descripción de no decir, así que me plantean esta cuestión, porque creo que tiene implicaciones importantes para la forma o si se puede utilizar esta información de la submuestra para sacar conclusiones sobre la totalidad de la muestra de estudiantes.

A mí me parece que hay tres facetas de esta contradicción problema.

1 es la tasa de contradicción. Es realmente el caso que 3/4 de la de los estudiantes adivinado mal?

2 es el grado de falsedad - una cosa es decir que su madre nunca terminó la escuela primaria, cuando ella, de hecho, terminado, pero se detuvo allí y otra muy distinta es decir que ella nunca terminó la escuela primaria, cuando ella tiene un Ph D.

3 es la proporción de la muestra que usted puede verificar. Si estás dibujando estas conclusiones en una submuestra de 20 y yo apostaría que las estimaciones son bastante inestable y probablemente no vale mucho.

A mí me parece que lo que se haga dependerá de su respuesta a estas preguntas y a la pregunta que hice al principio. Por ejemplo, si 1 es bastante alto y 3 es bastante alta, entonces yo podría usar la submuestra y hacer con ella. Si 1 es alto, pero el 2 es baja, entonces el problema no parece ser tan malo y, de nuevo, podría no valer la pena molestarse con.

Es probable que también vale la pena conocer si el error es aleatorio o sistemático. Si los estudiantes tienden sistemáticamente bajo la estimación de su madre a la educación, a continuación, que es más problemático que si, que acaba de ponerse totalmente equivocado algunas veces.

He hecho algunas imputación en un par de papeles y parece que siempre crear más problemas por mi mismo como un resultado. Los revisores, en mi zona al menos, a menudo no tienen un buen manejo en el método y por lo tanto son sospechosos de su uso. Siento que a veces es mejor, desde un punto de vista de la publicación, reconocer el problema y seguir adelante. Pero en este caso realmente no estás 'la imputación de los datos faltantes", pero la introducción de algún tipo de error predicho varianza para la variable. Es una pregunta muy interesante, y, poniendo todas las preocupaciones a un lado, yo no estoy seguro de cómo iba a ir sobre esto si que decidí que era el mejor curso de acción

2voto

James Sutherland Puntos 2033

La primera cosa a tener en cuenta es que las variables son: "¿qué dijo acerca de la educación de la madre" y "lo que la madre de la alumna dijo acerca de la madre de la alumna de la educación". Llame a S y M, respectivamente, y la etiqueta no se ve el verdadero nivel de la educación de la madre en forma de T.

S y M tienen ambos tiene valores perdidos y no hay nada de malo (modulo de la observación de abajo) con la puesta de M y S en un modelo de imputación pero sólo con uno de ellos en el análisis posterior. De la otra manera siempre estaría desaconsejado.

Esto es independiente de las otras tres preguntas:

  1. Hace falta un valor significa que los estudiantes no saben o no quieren decir mucho acerca de sus madres?
  2. Cómo utilizar S y M a aprender acerca de T?
  3. Usted tiene el derecho de ordenar de missingness para permitir que varios imputación a trabajar?

La ignorancia y la missingness

Usted podría estar interesado en T, pero no tiene que ser: percepciones del logro educativo (a través de S, y posiblemente M) o la falta de conocimientos de los estudiantes podría ser más causalmente interesante que T mismo. La imputación puede ser un camino sensato para la primera, pero puede o no puede ser para el segundo. Usted tiene que decidir.

El aprendizaje acerca de T

Digamos que usted está realmente interesado en T. En la ausencia de un estándar de oro de medición (debido a que a veces duda M) es difícil saber cómo podría no arbitraily combinar S y M a aprender acerca de T. Si, por otro lado, estaban dispuestos a tratar la M como correcta cuando está disponible, entonces usted podría utilizar para predecir M en un modelo de clasificación que contiene la información de los estudiantes y, a continuación, utilizar M en lugar de S en el análisis final. La preocupación sería sobre el sesgo de selección en los casos capacitado, lo que nos lleva a la tercera cuestión:

Missingness

Si varios de imputación puede trabajar depende de si faltan datos completamente al azar (MCAR) o falta al azar (MAR). Es S que falta al azar (MAR)? Tal vez no, ya que los alumnos podrían tener vergüenza para responder acerca de su madre, la falta de educación y omitir la pregunta. A continuación, el valor único que determina si va a ser desaparecidos y varios imputación no puede ayudar aquí. Por otro lado, si el bajo nivel de educación covaries con algo que se le preguntó y respondió en parte en la encuesta, por ejemplo, algunos indicador de ingresos, a continuación, MAR puede ser más razonable y múltiples imputación tiene algo para conseguir un agarre. Es M faltan al azar? Mismas consideraciones se aplican.

Por último, incluso si usted es interesante en T y adoptar un método de clasificación, usted todavía desea imputar a encajar en ese modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X