9 votos

¿Cómo puedo simular censo de microdatos para pequeñas áreas mediante un 1% de los microdatos de la muestra a gran escala y estadísticas globales en el área pequeña escala?

Me gustaría realizar un nivel individual de análisis multivariante en pequeños niveles de agregación geográfica (Australia censo de la colección de los distritos). Claramente, el censo no está disponible en estos pequeños niveles de agregación por razones de privacidad, así que estoy investigando otras alternativas. Casi todas las variables de interés son categóricos. Tengo dos conjuntos de datos a mi disposición:

  • El 1% del censo de la muestra está disponible en un mucho mayor nivel de agregación espacial (un área con una población de ~190.000, y gran segregación espacial de la demografía).

  • Tablas de frecuencia para las variables estoy interesado en el área pequeña de nivel (500 pequeñas áreas, la media de pop = 385, sd = 319, mediana = 355).

¿Cómo puedo utilizar estos dos conjuntos de datos para simular la distribución de la población en el área pequeña, nivel que está tan cerca como sea posible de la población actual del área pequeña?

Agradezco que bien pueden ser los métodos de rutina para hacerlo; si es así un puntero a un libro de texto de relevancia o artículos de revista sería muy apreciada.

6voto

Judioo Puntos 625

El trabajo de Gary King, en particular su libro "Una Solución a la Inferencia Ecológica Problema" (los dos primeros capítulos están disponibles aquí), sería de interés (así como el acompañamiento de software se utiliza para la inferencia ecológica). El rey muestra en su libro cómo las estimaciones de los modelos de regresión utilizando datos agregados puede ser mejorado mediante el examen de los posibles límites de nivel inferior agrupaciones han basado en datos agregados. El hecho de que sus datos son en su mayoría categórica agrupaciones que los hace susceptibles a esta técnica. (Aunque no se deje engañar, no es tanto un ómnibus de la solución como se podría esperar dado el título!) Más trabajo actual existe, pero el Rey del libro de la OMI el mejor lugar para empezar.

Otra posibilidad sería sólo para representar el potencial de los límites de los datos en sí (en mapas o gráficos). Así, por ejemplo, usted puede tener la distribución por sexo informó que, a nivel agregado (dicen 5.000 hombres y 5.000 mujeres), y usted sabe que este nivel agregado abarca 2 diferentes pequeñas unidades del área de las poblaciones de 9.000 y 1.000 personas. Entonces, podría representar esto como una tabla de contingencia de la forma;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000 

Aunque usted no tiene la información en las celdas para el nivel inferior agregaciones, de los marginales totales que se puede construir el mínimo o máximo de posibles valores para cada celda. Así, en este ejemplo el Men X Unit1 celda sólo puede tomar valores de entre 4.000 y 5.000 (en cualquier Momento las distribuciones marginales son más desiguales que el menor sea el intervalo de posibles valores de las celdas se tome). Al parecer, llegar a los límites de la tabla es más difícil de lo que yo esperaba que fuera (Dobra Y Fienberg, 2000), pero parece que una función está disponible en la eiPack biblioteca en R (Lau et al., 2007, pág. 43).

El análisis multivariado con nivel agregado los datos es difícil, ya que la agregación de sesgo se produce inevitablemente con este tipo de datos. (En pocas palabras, sólo quiero describir la agregación de prejuicios como que hay muchos tipos individuales de datos a nivel de la generación de procesos podría resultar en el nivel agregado de las asociaciones) Una serie de artículos en la American Sociological Review en la década de 1970 son algunos de mis favoritos de referencias para los temas (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974), aunque canónica de las fuentes sobre el tema puede ser (Fotheringham, & Wong, 1991; Oppenshaw, 1984; Robinson, 1950). Creo que representa el potencial de los límites que los datos pueden tomar potencialmente podría ser inciteful, a pesar de que son realmente frustrado por las limitaciones de los datos agregados para la realización de análisis multivariante. Que no deje a nadie de hacerlo a pesar de que en las ciencias sociales, aunque (para mejor o para peor!)

Nota, (como Charlie dijo en los comentarios) de que el Rey "solución" se ha recibido una buena cantidad de critisicm (Anselin & Cho, 2002; Freedman et al., 1998). Aunque estos critisicms no por decir acerca de las matemáticas del Rey del método, más lo es en cuanto a lo de las situaciones en la que el Rey del método aún no cuenta para la agregación de sesgo (y estoy de acuerdo con ambos Freedman y Anselin en que las situaciones en las que los datos para las ciencias sociales todavía se sospecha que son mucho más comunes que aquellas que cumplen con los del Rey de hipótesis). Esto es en parte la razón por la que me sugieren que sólo el examen de los límites (theres nada de malo con eso), sino de hacer inferencias acerca de cada nivel de correlaciones a partir de estos datos se lleva mucho más saltos de fe, que son en última instancia injustificado en la mayoría de las situaciones.


Citas

5voto

Judioo Puntos 625

Dasymetric asignación se centra principalmente en la interpolación de las estimaciones de población en áreas más pequeñas que en la actualidad la difusión de los datos (ver esta pregunta para una serie de referencias útiles sobre el tema). Con frecuencia esto se hace simplemente con la identificación de las áreas (basado en las características de la tierra) en el que, obviamente, no de la población existe, y, a continuación, volver a la estimación de las densidades de población (ommitting esas áreas). Un ejemplo podría ser si no es un cuerpo de agua en una ciudad, otra podría ser, si usted identificar industrial parcelas de tierra que no puede tener ninguna residencial de la población. Los enfoques más recientes para dasymetric asignación de incorporar otros datos auxiliares en un marco probabilístico para asignar estimaciones de población (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang & Qiu, 2011).

Ahora es fácil ver la relación a su pregunta en la mano. Desea que las estimaciones de población de las áreas pequeñas. Pero, también debe quedar claro cómo se puede caer por debajo de sus metas. Usted no sólo desea que los datos de población, pero las características de estas poblaciones. Uno de los términos utilizados para describir esta situación es el cambio de soporte del problema (Cressie, 1996; Gotway & Young, 2002). El endeudamiento de la geoestadística de la literatura en la cual uno trata de hacer predicciones de una determinada característica en una amplia zona desde el punto de muestras, el trabajo reciente ha intentado interpolar areal de datos a diferentes zonas objetivo. Gran parte de la obra de Pierre Goovaerts se centra en la zona-a-punto de métodos de kriging, un artículo reciente en la revista de Análisis Geográfico tiene varios ejemplos del método aplicado diferentes materiales en cuestión (Haining et al., 2010), y una de mis aplicaciones favoritas de ella está en este artículo (Young et al., 2009).

Lo que cito no debe considerarse como una panacea para el problema, sin embargo. En última instancia, muchos de los problemas ecológicos, la inferencia y la agregación de sesgo se aplican a los objetivos de la interpolación de área así. Es likley muchas de las relaciones entre el nivel micro de datos se perderán en el proceso de agregación, y tal técnicas de interpolación no será capaz de recuperarse de ellos. También el proceso a través del cual los datos se empíricamente interpolados (a través de la estimación de variogramas desde el nivel agregado los datos) es a menudo bastante completo de ad-hoc pasos que debe hacer el proceso cuestionable (Goovaerts, 2008).

Por desgracia, he puesto esto en una separada de respuestas, como la ecológica, la inferencia de la literatura y la literatura en dasymetric asignación de área y a punto de kriging se que no se superponen. Aunque la literatura sobre la inferencia ecológica tiene muchas implicaciones para estas técnicas. No sólo son las técnicas de interpolación sujetos a sesgo de agregación, pero el inteligente dasymetric técnicas (que utilizan los datos agregados para el ajuste de los modelos para predecir las áreas más pequeñas) es probable sospechoso a la agregación de los prejuicios. El conocimiento de las situaciones en las que la agregación de sesgo se produce debe ser esclarecedor en cuanto a las situaciones en las que la interpolación de área y dasymetric asignación de gran parte va a fallar (especialmente en lo que respecta a la identificación de correlaciones entre las diferentes variables en el nivel desagregado).


Citas

2voto

StasK Puntos 19497

No estoy seguro de una bien definida la respuesta que existe en la literatura para ello, y dado que la búsqueda de Google da básicamente tres utilizable referencias en multivariante de estimación de pequeñas áreas. Pfeffermann (2002) analiza discretas variables de respuesta en la sección 4 del documento, pero estos serán los modelos univariados. Por supuesto, con Bayesiano jerárquico métodos (Rao, 2003, Cap. 10), se puede hacer cualquier tipo de maravillas, pero si al final te encuentras solo replicar sus priores (porque tienen muy pocos datos), este sería un terrible resultado de su ejercicio de simulación. Además, Rao solo se trata de variables continuas.

Supongo que el mayor reto será el de la descomposición de la matriz de covarianza en el entre - y dentro de-pequeña-componentes del área. Con el 1% de la muestra, usted sólo tiene 3 observaciones desde el SAE, por lo que puede ser difícil obtener una estabilidad estimación de la dentro de los componentes.

Si yo estuviera en tus zapatos, me gustaría probar una multivariante extensión de Pfeffermann del modelo multivariante de efecto aleatorio de la pequeña área. De hecho puedes terminar con un modelo jerárquico Bayesiano para esto, si no basada en el diseño de las obras.

ACTUALIZACIÓN (para abordar el comentario de Andy a esta respuesta): el bootstrap métodos para la estimación de pequeñas áreas (Lahiri 2003), específicamente recrear de un modo plausible de la población del estudio. Mientras que el enfoque de la secuencia de arranque es el ejercicio para estimar las varianzas de la pequeña área de las estimaciones, los procedimientos deben ser de interés y relevancia para la publicación de problema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X