El trabajo de Gary King, en particular su libro "Una Solución a la Inferencia Ecológica Problema" (los dos primeros capítulos están disponibles aquí), sería de interés (así como el acompañamiento de software se utiliza para la inferencia ecológica). El rey muestra en su libro cómo las estimaciones de los modelos de regresión utilizando datos agregados puede ser mejorado mediante el examen de los posibles límites de nivel inferior agrupaciones han basado en datos agregados. El hecho de que sus datos son en su mayoría categórica agrupaciones que los hace susceptibles a esta técnica. (Aunque no se deje engañar, no es tanto un ómnibus de la solución como se podría esperar dado el título!) Más trabajo actual existe, pero el Rey del libro de la OMI el mejor lugar para empezar.
Otra posibilidad sería sólo para representar el potencial de los límites de los datos en sí (en mapas o gráficos). Así, por ejemplo, usted puede tener la distribución por sexo informó que, a nivel agregado (dicen 5.000 hombres y 5.000 mujeres), y usted sabe que este nivel agregado abarca 2 diferentes pequeñas unidades del área de las poblaciones de 9.000 y 1.000 personas. Entonces, podría representar esto como una tabla de contingencia de la forma;
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
Aunque usted no tiene la información en las celdas para el nivel inferior agregaciones, de los marginales totales que se puede construir el mínimo o máximo de posibles valores para cada celda. Así, en este ejemplo el Men X Unit1
celda sólo puede tomar valores de entre 4.000 y 5.000 (en cualquier Momento las distribuciones marginales son más desiguales que el menor sea el intervalo de posibles valores de las celdas se tome). Al parecer, llegar a los límites de la tabla es más difícil de lo que yo esperaba que fuera (Dobra Y Fienberg, 2000), pero parece que una función está disponible en la eiPack
biblioteca en R (Lau et al., 2007, pág. 43).
El análisis multivariado con nivel agregado los datos es difícil, ya que la agregación de sesgo se produce inevitablemente con este tipo de datos. (En pocas palabras, sólo quiero describir la agregación de prejuicios como que hay muchos tipos individuales de datos a nivel de la generación de procesos podría resultar en el nivel agregado de las asociaciones) Una serie de artículos en la American Sociological Review en la década de 1970 son algunos de mis favoritos de referencias para los temas (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974), aunque canónica de las fuentes sobre el tema puede ser (Fotheringham, & Wong, 1991; Oppenshaw, 1984; Robinson, 1950). Creo que representa el potencial de los límites que los datos pueden tomar potencialmente podría ser inciteful, a pesar de que son realmente frustrado por las limitaciones de los datos agregados para la realización de análisis multivariante. Que no deje a nadie de hacerlo a pesar de que en las ciencias sociales, aunque (para mejor o para peor!)
Nota, (como Charlie dijo en los comentarios) de que el Rey "solución" se ha recibido una buena cantidad de critisicm (Anselin & Cho, 2002; Freedman et al., 1998). Aunque estos critisicms no por decir acerca de las matemáticas del Rey del método, más lo es en cuanto a lo de las situaciones en la que el Rey del método aún no cuenta para la agregación de sesgo (y estoy de acuerdo con ambos Freedman y Anselin en que las situaciones en las que los datos para las ciencias sociales todavía se sospecha que son mucho más comunes que aquellas que cumplen con los del Rey de hipótesis). Esto es en parte la razón por la que me sugieren que sólo el examen de los límites (theres nada de malo con eso), sino de hacer inferencias acerca de cada nivel de correlaciones a partir de estos datos se lleva mucho más saltos de fe, que son en última instancia injustificado en la mayoría de las situaciones.
Citas
- Anselin, L. & W. K. T. Cho (2002). Efectos espaciales y ecológicos de la inferencia. Análisis Político 10(3): 276-297.
- Dobra A. & S.E. Fienberg (2000). Los límites para la celda de entradas en las tablas de contingencia dada marginales totales y descomponible gráficos. Actas de la Academia Nacional de Ciencias de 97(22): 11885-11892
- Firebaugh, G. (1978). Una regla de inferencia de las relaciones individuales a partir de los datos agregados. American Sociological Review 43(4): 557-572
- Fotheringham, A. S. & D. W. Wong (1991). El modificables unidad de área problema en el análisis estadístico multivariado. De medio ambiente y Planificación 23(7): 1025-1044
-
Freedman, D. A., S. P. Klein, M. Ostland, & M. R. Roberts (1998). Revisado Obras: Una Solución para la Inferencia Ecológica Problema por G. Rey. Revista de la Asociación Americana de Estadística 93(444): 1518-1522. (PDF aquí)
- Hammond, J. L. (1973) Dos fuentes de error en el ecológicos correlaciones. American Sociological Review 38(6): 764-777
- Hannan, M. T. & L. Burstein (1974). Estimación a partir de agrupar las observaciones. American Sociological Review 39(3): 374-392
- Rey, G. (1997). Una Solución para la Inferencia Ecológica Problema: la Reconstrucción de la Conducta Individual a partir de los Datos Agregados. Princeton: Princeton University Press.
- Lau O., R. T. Moore & M. Kellerman (2007). eiPack: R X C Ecológica, la Inferencia y la de Mayor Dimensión de Gestión de Datos. R Noticias 7(2): 43-47
- Oppenshaw, S. (1984). El Modificables Unidad De Área Problema. Norwich: Geo Libros. (PDF aquí)
-
Robinson, W. S. (1950). Ecológica correlaciones y el comportamiento de los individuos. American Sociological Review 15(3): 351-357. (PDF aquí)