Acabo de recibir mis manos en la ANES (American National Election Studies) 2008 conjunto de datos, y quisiera hacer algunos análisis en R. sin Embargo, nunca he trabajado con este complejo de un conjunto de datos antes y me he topado con un problema.
La encuesta utiliza sobremuestreo y tiene una variable para el post estratificación de pesos. Sólo tenía una vaga idea de lo que eso significaba, por lo que he leído la página de la wikipedia sobre él, ya que entiendo que conceptualmente. Por desgracia, no sé cómo manipular R tal que el post estratificación de pesos se refleja cuando hago mi análisis.
Conceptualmente, la idea de sobremuestreo no me confundan, la siguiente documentación para la R "encuesta" el paquete está completamente ininteligible para mí. Te voy a mostrar lo que he encontrado hasta ahora, y realmente agradecería una explicación de lo que está pasando con estos métodos, o, si alguien sabe una manera más simple de aplicar una post-estratificación de peso a un marco de datos de las variables, me encantaría aquí también.
Así, me encontré con la "encuesta" paquete de CRAN, y tengo el manual, y, después de mirar a través de él, parece que el más prometedor método es el siguiente:
postStratify(design, strata, population, partial = FALSE, ...)
Sin embargo, cuando miro a la documentación de lo que debe ser aprobada por cada uno de estos argumentos, estoy completamente perdido. Son como sigue:
design A survey design with replicate weights
strata A formula or data frame of post-stratifying variables
population A table, xtabs or data.frame with population frequencies
partial if TRUE, ignore population strata not present in the sample
Ninguno de estos hacer un montón de sentido para mí, pero estoy bastante seguro de que el diseño argumento se supone que ser de una clase, también se definen en este paquete:
svydesign(ids, probs=NULL, strata = NULL, variables = NULL, fpc=NULL,
data = NULL, nest = FALSE,
check.strata = !nest, weights=NULL,pps=FALSE,...)
Si te das cuenta, hay un montón de argumentos opcionales aquí, que parecen hacer el mismo tipo de cosas (al menos para mí, después de leer la documentación...).
Estoy básicamente en una pérdida de por qué esto es tan complicado en R. Estoy malentendido las cosas? Hay una forma más simple de hacer esto? Cualquier ayuda se agradece.