Moran's I una medida de autocorrelación espacial, no es un estadístico especialmente robusto (puede ser sensible a distribuciones sesgadas de los atributos de los datos espaciales).
¿Cuáles son algunos robusto técnicas para medir la autocorrelación espacial? Estoy particularmente interesado en soluciones que estén fácilmente disponibles/implementables en un lenguaje de scripting como R. Si las soluciones se aplican a circunstancias únicas/distribuciones de datos, por favor especifíquelas en su respuesta.
EDITAR : Amplío la pregunta con algunos ejemplos (en respuesta a los comentarios/respuestas a la pregunta original)
Se ha sugerido que las técnicas de permutación (en las que se genera una distribución de muestreo I de Moran mediante un procedimiento de Montecarlo) ofrecen una solución sólida. A mi entender, este tipo de prueba elimina la necesidad de hacer suposiciones sobre la distribución I de Moran (dado que la estadística de la prueba puede verse influida por la estructura espacial del conjunto de datos), pero no veo cómo la técnica de permutación corrige la datos de atributos con distribución no normal . Ofrezco dos ejemplos: uno que demuestra la influencia de los datos sesgados en el estadístico I de Moran local, el otro en el I de Moran global, incluso con pruebas de permutación.
Usaré Zhang et al. 's (2008) como primer ejemplo. En su trabajo, muestran la influencia de la distribución de los datos de atributos en la local Moran's I utilizando pruebas de permutación (9999 simulaciones). He reproducido los resultados de los puntos calientes de los autores para las concentraciones de plomo (Pb) (con un nivel de confianza del 5%) utilizando los datos originales (panel izquierdo) y una transformación logarítmica de esos mismos datos (panel derecho) en GeoDa. También se presentan gráficos de caja de las concentraciones de Pb originales y transformadas logarítmicamente. Aquí, el número de puntos calientes significativos casi dobles cuando se transforman los datos; este ejemplo muestra que la estadística local es sensibles a la distribución de los datos de atributos, ¡incluso cuando se utilizan técnicas de Montecarlo!
El segundo ejemplo (datos simulados) demuestra la influencia que pueden tener los datos sesgados en la global Moran's I incluso cuando se utilizan pruebas de permutación. Un ejemplo, en R , sigue:
library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n <- length(NB)
set.seed(4956)
x.norm <- rnorm(n)
rho <- 0.3 # autoregressive parameter
W <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value
Obsérvese la diferencia en los valores P. Los datos sesgados indican que no hay agrupación a un nivel de significación del 5% (p=0,167), mientras que los datos distribuidos normalmente indican que sí la hay (p=0,013).
Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Use of local Moran's I and GIS to identify pollution hotspots of Pb in urban soils of Galway, Ireland, Science of The Total Environment, Volume 398, Issues 1-3, 15 July 2008, Pages 212-221