se encuestó a todos los de 10.000 profesionales en una industria en particular. La industria está altamente regulado, por lo que tenemos la información de contacto para todos en nuestra población de interés. Hemos intentado contactar con el 100% de la población. Ahora tenemos un conjunto de datos que contiene los 2.000 respuestas, porque el 20% de nuestra población estuvo de acuerdo para completar la encuesta. Cuando la administración de esta encuesta, no hubo muestreo de probabilidades y no de agrupación en clústeres en todo.
Hay una gran cantidad de variación en la tasa de respuesta cuando se rompe a cabo por el estado de residencia. Puesto que el estado de variación es importante en esta industria, tenemos planes para calcular los pesos de este último conjunto de datos, de modo que cualquier estadística que corremos va a generalizar a la población en general, más que el 20% de los que respondieron. Yo creo que los pesos deben ser tratados como post-estratificación de pesos, pero no estoy seguro.
No me imagine que este es un terriblemente complejo conjunto de datos a analizar, pero no estoy seguro de si es un caso especial de algún tipo -- no implica ningún muestreo de lo que sea, pero al mismo tiempo no es el universo entero.
Agradecería cualquier tipo de codificación consejos (en cualquier lenguaje estadístico) para recomendar el análisis de la encuesta de configuración que tiene más sentido para los datos de esta estructura.
si tuviera que adivinar, aquí está el código R que me gustaría utilizar:
# start with data set `x` and add a column of five, since 20% responded
x$wgt <- 5
# give everyone in the data set a weight of five
# provide only a column of 5's to the `svydesign` command
y <- svydesign( ~1 , data = x , weights = ~ wgt )
# create a table with the intended joint distribution, here with just two example states
pop.types <- data.frame( state = c( "state 1" , "state 2" ) , Freq = c( 5000 , 5000 ) )
# create the post-stratified survey design
z <- postStratify( y , ~ state , pop.types )
# have fun running statistics and confidence intervals
svymean( ~ variable.to.analyze , z )
confint( svymean( ~ variable.to.analyze , z ) )
ucla tiene una post-estratificación tutorial en stata que me hace pensar que podría ser más inteligente para crear la svyset línea como esta:
gen total_pop = 10000
gen pststr_wgt = .
replace pststr_wgt = 5000 if state == "state 1":state
replace pststr_wgt = 5000 if state == "state 2":state
svyset _n , fpc( total_pop ) poststrata( state ) postweight( pststr_wgt )
gracias!!