8 votos

recomendaciones para analizar un estudio de la estructura de toda muestra con una tasa de respuesta de 20%

se encuestó a todos los de 10.000 profesionales en una industria en particular. La industria está altamente regulado, por lo que tenemos la información de contacto para todos en nuestra población de interés. Hemos intentado contactar con el 100% de la población. Ahora tenemos un conjunto de datos que contiene los 2.000 respuestas, porque el 20% de nuestra población estuvo de acuerdo para completar la encuesta. Cuando la administración de esta encuesta, no hubo muestreo de probabilidades y no de agrupación en clústeres en todo.

Hay una gran cantidad de variación en la tasa de respuesta cuando se rompe a cabo por el estado de residencia. Puesto que el estado de variación es importante en esta industria, tenemos planes para calcular los pesos de este último conjunto de datos, de modo que cualquier estadística que corremos va a generalizar a la población en general, más que el 20% de los que respondieron. Yo creo que los pesos deben ser tratados como post-estratificación de pesos, pero no estoy seguro.

No me imagine que este es un terriblemente complejo conjunto de datos a analizar, pero no estoy seguro de si es un caso especial de algún tipo -- no implica ningún muestreo de lo que sea, pero al mismo tiempo no es el universo entero.

Agradecería cualquier tipo de codificación consejos (en cualquier lenguaje estadístico) para recomendar el análisis de la encuesta de configuración que tiene más sentido para los datos de esta estructura.

si tuviera que adivinar, aquí está el código R que me gustaría utilizar:

# start with data set `x` and add a column of five, since 20% responded
x$wgt <- 5
# give everyone in the data set a weight of five

# provide only a column of 5's to the `svydesign` command
y <- svydesign( ~1 , data = x , weights = ~ wgt )

# create a table with the intended joint distribution, here with just two example states
pop.types <- data.frame( state = c( "state 1" , "state 2" ) , Freq = c( 5000 , 5000 ) )

# create the post-stratified survey design
z <- postStratify( y , ~ state , pop.types )

# have fun running statistics and confidence intervals
svymean( ~ variable.to.analyze , z )
confint( svymean( ~ variable.to.analyze , z ) )

ucla tiene una post-estratificación tutorial en stata que me hace pensar que podría ser más inteligente para crear la svyset línea como esta:

gen total_pop = 10000
gen pststr_wgt = .
replace pststr_wgt = 5000 if state == "state 1":state
replace pststr_wgt = 5000 if state == "state 2":state
svyset _n , fpc( total_pop ) poststrata( state ) postweight( pststr_wgt )

gracias!!

4voto

Awais Tariq Puntos 116

La falta de respuesta es un problema frecuente en las encuestas, para estar seguro. Cualquier uso de estos datos debe incluir algún idioma acerca de la no-respuesta de frecuencia, y los resultados juzgado con precaución.

En cuanto a su pregunta acerca de la R de uso, el código se ve bien. Como detalle, en lugar de utilizar las pesas en el svydesign parte, me gustaría utilizar el fpc=~rep(10000,10000). Si el suministro de pesos, usted no consigue la corrección por población finita-sólo una estimación ponderada.

Post-estratificación no es la respuesta a todos los problemas de la vida. Se puede reducir la varianza de las estimaciones, pero no tanto como si hubiera estratificada desde el principio. Y, por supuesto, no hace nada para usted si la variable de interés no está relacionado con la post-estratificación de la variable, y en relación con lo que le causó la no-respuesta.

Creo que un buen lugar para comenzar en este caso es para ver si la distribución de los estados en sus socorristas es típico de su grupo profesional. Si es que, luego de la post-estratificación es innecesario. Si usted sabe la edad y el género de su gente, usted puede probar los así.

Post-estratificación hace literalmente nada si usted es el cálculo de los medios de la post-estratificación de los grupos. (Ejemplo: he puesto estratificar en el género y, a continuación, calcular los medios para hombres y mujeres). Esto es debido a una decisión de diseño por Thomas Lumley, que él describe en la página 137 de su libro, Encuestas Complejas: una Guía para el Análisis de uso de R.

No creo que su situación es tan desesperada como @whuber cree, ni se compara a la forma Literaria de Digerir snafu durante las elecciones presidenciales de 1936. El LD extrajo una muestra de una población de marco que favorecía a los Republicanos. Ellos han tenido problemas incluso con una buena tasa de respuesta. Su población marco está completa.

Recuerde que usted hizo en realidad, físicamente, recibir información de 2,000 de 10.000 personas. Usted vio lo que vio. La falta de 8.000 tendría que ser muy diferente de la de 2.000 masivamente a cambio de su media calculada a partir de donde él está. Cuán malo puede ser? Hacer algunas pruebas de sensibilidad y publicar sus resultados, digo yo.

1voto

Phill Puntos 482

¿Qué quieres decir con "no hubo muestreo de probabilidades" ? Hizo todas las unidades tienen la misma probabilidad de inclusión (muestreo aleatorio simple) ? O es porque se trató de contactar a cada una de las unidades de la población (en cuyo caso todos los pesos iniciales son iguales a 1) ?

De todos modos, los resultados pueden claramente ser utilizado (a pesar de que su tasa de respuesta es muy baja, las estimaciones en muy pequeñas sub-poblaciones podría no ser muy preciso) ! Vas a estar bien mientras usted cuenta de la falta de respuesta en sus estimaciones.

Post-estratificación es una manera de hacerlo (entonces su post-estratificación de las variables tienen que ser altamente correlacionada con la falta de respuesta de la probabilidad), pero me gustaría recomendar el uso Homegeneous Grupos de Respuesta, que he explicado en detalle en un post que escribí hace un rato.

PS : Como @Placidia se mencionó, el caso de 1936, la elección es muy diferente : el prejuicio proviene de un defecto en el marco de muestreo, no es una forma de no-respuesta biais.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X