Respuesta
Si considera que hay una relación fuerte entre el valor de 2020 y el valor actual, entonces sería útil también utilizar el muestreo proporcional al tamaño (PPS). El muestreo PPS es comúnmente utilizado por agencias estadísticas como la Oficina de Estadísticas Laborales de EE. UU., que por ejemplo muestrea empresas con probabilidades proporcionales a una medida de tamaño como el total de empleados o los ingresos reportados.
El muestreo PPS se puede utilizar además o en lugar del muestreo estratificado. Por lo tanto, puede definir estratos, asignar tamaños de muestra utilizando la asignación de Neyman y luego muestrear objetos dentro de cada estrato utilizando probabilidades proporcionales a su "medida de tamaño", que en este caso es el valor conocido en dólares de 2020 del objeto.
Un método más sencillo y probablemente más efectivo es utilizar un muestreo sistemático con probabilidad proporcional al tamaño. El muestreo sistemático se puede utilizar para estratificar implícitamente sus datos, de manera que no tenga que definir estratos manualmente y realizar la asignación de Neyman. Esta publicación de blog brinda una explicación de cómo se utiliza el muestreo sistemático para "estratificar implícitamente" una población con el fin de realizar un muestreo:
https://www.practicalsignificance.com/posts/systematic-sampling-as-implicit-stratification/
El muestreo sistemático suele ser más preciso que el muestreo aleatorio simple estratificado regular.
Referencias
El Capítulo 6 del clásico libro de muestreo "Sampling: Design and Analysis" de Sharon Lohr proporciona una buena introducción al muestreo PPS. La Sección 5.6 de "Sampling and Estimation from Finite Population" de Yves Tillé proporciona un tratamiento matemático más detallado del método de muestreo sistemático PPS. La página 205 del libro de texto "Sampling Techniques" de William Cochran proporciona una introducción más accesible al muestreo sistemático y una explicación intuitiva de por qué a menudo produce estimaciones más precisas en comparación con el muestreo aleatorio simple estratificado.
- Lohr, Sharon L. 2022. Sampling: Design and Analysis. Tercera edición. Boca Ratón: CRC Press.
- Tillé, Yves. 2020. Sampling and Estimation from Finite Population. Hoboken, NJ: Wiley.
- Cohcran, William. 1977. Sampling Techniques. Tercera edición.
Software
El paquete 'sampling' en R proporciona métodos para el muestreo PPS, incluido el método de muestreo sistemático PPS.
https://cran.r-project.org/web/packages/sampling/index.html
El código R de ejemplo a continuación muestra cómo seleccionar una muestra utilizando el muestreo sistemático PPS, y repite esto 10,000 veces utilizando simulación para que podamos ver qué tan precisas son las estimaciones basadas en este método de muestreo.
En este ejemplo, extraemos una muestra de 500 bibliotecas de un Censo de 9,245 bibliotecas públicas de EE. UU. Queremos estimar la circulación media entre bibliotecas en EE. UU. Por lo tanto, definimos nuestras probabilidades de muestreo proporcionales al tamaño de la biblioteca, donde el tamaño se mide en términos del número total de trabajadores en una biblioteca. Esto tiene sentido, ya que estas dos variables están bastante correlacionadas (es decir, las bibliotecas con más personal tienden a tener más libros).
En la salida de simulación a continuación, podemos ver que en promedio la estimación de nuestra muestra no es más de aproximadamente un 9% demasiado pequeña o demasiado grande.
library(sampling)
# Cargar datos de ejemplo para usar como población ----
data('library_census', package = 'svrep')
# Imputar valores faltantes ----
library_census$TOTSTAFF <- ifelse(
is.na(library_census$TOTSTAFF),
mean(library_census$TOTSTAFF, na.rm = TRUE),
library_census$TOTSTAFF
)
library_census$TOTCIR <- ifelse(
is.na(library_census$TOTCIR),
mean(library_census$TOTCIR, na.rm = TRUE),
library_census$TOTCIR
)
# Definir probabilidades de muestreo proporcionales a `TOTSTAFF`
sampling_probs <- sampling::inclusionprobabilities(
a = pmax(library_census$TOTSTAFF, 0.01),
n = 500
)
# Muestrear repetidamente utilizando PPS sistemático ----
set.seed(2023)
estimaciones <- replicate(n = 10000, expr = {
sample_indicators <- sampling::UPsystematic(
pik = sampling_probs
) |> as.logical()
selected_sample <- library_census[sample_indicators,]
# Calcular pesos a utilizar para la estimación
selected_sample$WEIGHT <- 1/sampling_probs[sample_indicators]
# Producir una estimación
estimación_encuesta <- weighted.mean(
x = selected_sample$TOTCIR,
w = selected_sample$WEIGHT
)
return(estimación_encuesta)
})
valor_real <- mean(library_census$TOTCIR)
error_relativo <- abs(estimaciones - valor_real)/valor_real
mean(error_relativo)
#> [1] 0.0916447