-
La UMP, o unidad primaria de muestreo, es el objeto o grupo de objetos que se muestrea en la primera etapa de una muestra polietápica. Normalmente, en los estudios nacionales a gran escala, puede ser un condado o una sección censal. Luego se desciende al nivel de manzanas (unidades de muestreo secundarias), viviendas, hogares e individuos. Así, cuando se muestrea el condado de Autauga, Alabama (uno de los más de 3.000 condados de EE.UU., el primero que aparece en las listas estándar), hay que pensar en las 50.000 personas que viven en él como una sola unidad a efectos de estimación de la varianza. Por supuesto, es probable que se haga una submuestra de este condado y se acabe entrevistando a unas 10 personas. Sin embargo, la mayor parte de la contribución a la varianza procede de la primera etapa, especialmente cuando las observaciones con la UPM son similares entre sí.
-
Esta es la fórmula estándar para la varianza de una muestra agrupada; un conocimiento común, si se quiere. No existe una explicación sencilla para ella, salvo la derivación a partir de los primeros principios. Tendría que consultar un libro estándar de estadística de encuestas, como por ejemplo Lohr 2009 , Korn y Graubard 1999 o Thompson 1997 (en orden creciente de complejidad y rigor matemático).
Los primeros principios del muestreo de poblaciones finitas son realmente ortogonales a todo lo que se ha aprendido en estadística (ya sea convencional, bayesiana o de aprendizaje automático). Lo que se mide en los elementos de la muestra se considera fijo (el peso o la estatura de alguien o el color de sus ojos; y eso tiene sentido, salvo algún error de medición: tu estatura de mañana no debería diferir de tu estatura de hoy, así que ¿cómo puede ser aleatorio?) Lo que es aleatorio, sin embargo, son los indicadores de los elementos finitos de la población que se toman en la muestra. En otras palabras, si hablamos de muestrear a 1.000 personas de la población estadounidense, estamos hablando de un vector de 300 millones de dimensiones que tiene ceros para la mayoría de las personas que no entraron en la muestra, y unos para las 1.000 personas que sí entraron. Por lo tanto, los espacios de probabilidad que encontraríamos en el mundo de la encuesta por muestreo son discretos (aunque combinatoriamente enormes), y también lo son las distribuciones de muestreo de las estadísticas muestrales, aunque estas últimas a veces se aproximarían bien mediante las distribuciones normales. Sin embargo, las justificaciones de tipo CLT son mucho más complicadas en la estadística de encuestas, ya que las CLT adecuadas sólo se han demostrado en contextos limitados de diseños de muestreo específicos. Habría que acostumbrarse a pensar en términos de totales (porque son los únicos estadísticos lineales de los elementos aleatorios); a que la media ponderada sea un estimador sesgado de la media de la población (porque es un estimador de razón, es decir, un estadístico no lineal); y a que la estimación de la varianza sea un orden de magnitud más compleja que la estimación puntual.
Aunque Phil Kott es un tipo muy sabio que escribe bastante bien, dudo que este documento sea un buen punto de partida sobre estadísticas de encuestas. Supongo que te habrán metido en esto con bastante dureza para tener que leer esto del cielo azul.