1 votos

¿Es la asignación de Neyman la mejor aproximación del muestreo?

Tengo un conjunto de datos del valor de 2020 de 15,000 objetos únicos. El valor está sesgado hacia la derecha. Debo dibujar una muestra de 500 objetos únicos basados en el valor de 2020 (rango = $1-40,000). El valor presente de esta muestra (n=500) será determinado, y extrapolado a la población más amplia (n=14,500) para determinar el valor de estos objetos. La muestra no puede ser mayor de 500. Dadas las circunstancias, mi pensamiento era que sería mejor segmentar el valor en dólares de los objetos de toda la población, y utilizar esto como la variable de estratificación para llevar a cabo la asignación de Neyman. El objetivo es obtener una muestra que minimice el error estándar.

¿Es este el mejor enfoque, o sería suficiente un muestreo aleatorio simple? ¿Qué consideraciones debo tener en cuenta al segmentar la variable de coste?

1voto

mnain Puntos 19

Respuesta

Si considera que hay una relación fuerte entre el valor de 2020 y el valor actual, entonces sería útil también utilizar el muestreo proporcional al tamaño (PPS). El muestreo PPS es comúnmente utilizado por agencias estadísticas como la Oficina de Estadísticas Laborales de EE. UU., que por ejemplo muestrea empresas con probabilidades proporcionales a una medida de tamaño como el total de empleados o los ingresos reportados.

El muestreo PPS se puede utilizar además o en lugar del muestreo estratificado. Por lo tanto, puede definir estratos, asignar tamaños de muestra utilizando la asignación de Neyman y luego muestrear objetos dentro de cada estrato utilizando probabilidades proporcionales a su "medida de tamaño", que en este caso es el valor conocido en dólares de 2020 del objeto.

Un método más sencillo y probablemente más efectivo es utilizar un muestreo sistemático con probabilidad proporcional al tamaño. El muestreo sistemático se puede utilizar para estratificar implícitamente sus datos, de manera que no tenga que definir estratos manualmente y realizar la asignación de Neyman. Esta publicación de blog brinda una explicación de cómo se utiliza el muestreo sistemático para "estratificar implícitamente" una población con el fin de realizar un muestreo:

https://www.practicalsignificance.com/posts/systematic-sampling-as-implicit-stratification/

El muestreo sistemático suele ser más preciso que el muestreo aleatorio simple estratificado regular.

Referencias

El Capítulo 6 del clásico libro de muestreo "Sampling: Design and Analysis" de Sharon Lohr proporciona una buena introducción al muestreo PPS. La Sección 5.6 de "Sampling and Estimation from Finite Population" de Yves Tillé proporciona un tratamiento matemático más detallado del método de muestreo sistemático PPS. La página 205 del libro de texto "Sampling Techniques" de William Cochran proporciona una introducción más accesible al muestreo sistemático y una explicación intuitiva de por qué a menudo produce estimaciones más precisas en comparación con el muestreo aleatorio simple estratificado.

  • Lohr, Sharon L. 2022. Sampling: Design and Analysis. Tercera edición. Boca Ratón: CRC Press.
  • Tillé, Yves. 2020. Sampling and Estimation from Finite Population. Hoboken, NJ: Wiley.
  • Cohcran, William. 1977. Sampling Techniques. Tercera edición.

Software

El paquete 'sampling' en R proporciona métodos para el muestreo PPS, incluido el método de muestreo sistemático PPS.

https://cran.r-project.org/web/packages/sampling/index.html

El código R de ejemplo a continuación muestra cómo seleccionar una muestra utilizando el muestreo sistemático PPS, y repite esto 10,000 veces utilizando simulación para que podamos ver qué tan precisas son las estimaciones basadas en este método de muestreo.

En este ejemplo, extraemos una muestra de 500 bibliotecas de un Censo de 9,245 bibliotecas públicas de EE. UU. Queremos estimar la circulación media entre bibliotecas en EE. UU. Por lo tanto, definimos nuestras probabilidades de muestreo proporcionales al tamaño de la biblioteca, donde el tamaño se mide en términos del número total de trabajadores en una biblioteca. Esto tiene sentido, ya que estas dos variables están bastante correlacionadas (es decir, las bibliotecas con más personal tienden a tener más libros).

En la salida de simulación a continuación, podemos ver que en promedio la estimación de nuestra muestra no es más de aproximadamente un 9% demasiado pequeña o demasiado grande.

library(sampling)

# Cargar datos de ejemplo para usar como población ----
  data('library_census', package = 'svrep')

# Imputar valores faltantes ----
  library_census$TOTSTAFF <- ifelse(
    is.na(library_census$TOTSTAFF),
    mean(library_census$TOTSTAFF, na.rm = TRUE),
    library_census$TOTSTAFF
  )
  library_census$TOTCIR <- ifelse(
    is.na(library_census$TOTCIR),
    mean(library_census$TOTCIR, na.rm = TRUE),
    library_census$TOTCIR
  )

# Definir probabilidades de muestreo proporcionales a `TOTSTAFF`

  sampling_probs <- sampling::inclusionprobabilities(
    a = pmax(library_census$TOTSTAFF, 0.01),
    n = 500
  )

# Muestrear repetidamente utilizando PPS sistemático ----

  set.seed(2023)

  estimaciones <- replicate(n = 10000, expr = {

    sample_indicators <- sampling::UPsystematic(
      pik = sampling_probs
    ) |> as.logical()

    selected_sample <- library_census[sample_indicators,]

    # Calcular pesos a utilizar para la estimación
    selected_sample$WEIGHT <- 1/sampling_probs[sample_indicators]

    # Producir una estimación
    estimación_encuesta <- weighted.mean(
      x = selected_sample$TOTCIR,
      w = selected_sample$WEIGHT
    )

    return(estimación_encuesta)
  })

  valor_real <- mean(library_census$TOTCIR)

  error_relativo <- abs(estimaciones - valor_real)/valor_real

  mean(error_relativo)
#> [1] 0.0916447

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X