80 votos

¿Por qué incluir la latitud y la longitud en un GAM tiene en cuenta la autocorrelación espacial?

He elaborado modelos aditivos generalizados para la deforestación. Para tener en cuenta la autocorrelación espacial, he incluido la latitud y la longitud como un término de interacción suavizado (es decir, s(x,y)).

Me he basado en la lectura de muchos artículos en los que los autores dicen que "para tener en cuenta la autocorrelación espacial, las coordenadas de los puntos se incluyeron como términos suavizados", pero nunca han explicado por qué esto lo tiene en cuenta. Es bastante frustrante. He leído todos los libros que he podido encontrar sobre GAMs con la esperanza de encontrar una respuesta, pero la mayoría (por ejemplo, Generalized Additive Models, an Introduction with R, S.N. Wood) sólo tocan el tema sin explicarlo.

Me gustaría que alguien me explicara por qué la inclusión de la latitud y la longitud tiene en cuenta la autocorrelación espacial, y qué significa realmente "tener en cuenta" la autocorrelación: ¿basta con incluirla en el modelo, o hay que comparar un modelo con s(x,y) y otro sin ella? ¿Y la desviación explicada por el término indica el grado de autocorrelación espacial?

66voto

jldugger Puntos 7490

"Autocorrelación espacial" significa varias cosas para varias personas. Un concepto general, sin embargo, es que un fenómeno observado en lugares $\mathbf{z}$ puede depender de alguna manera definida de (a) las covariables, (b) la ubicación, y (c) sus valores en cerca de lugares. (Donde las definiciones técnicas varían es en el tipo de datos que se consideran, en lo que se postula como "vía definitiva" y en lo que significa "cercano": todo ello debe hacerse cuantitativo para poder proceder).

Para ver lo que puede ocurrir, consideremos un ejemplo sencillo de este modelo espacial para describir la topografía de una región. Sea la elevación medida en un punto $\mathbf{z}$ sea $y(\mathbf{z})$ . Un posible modelo es que $y$ depende de alguna manera matemática definida de las coordenadas de $\mathbf{z}$ que escribiré $(z_1,z_2)$ en esta situación bidimensional. Dejando $\varepsilon$ representan desviaciones (hipotéticamente independientes) entre las observaciones y el modelo (que, como es habitual, se supone que tienen una expectativa nula), podemos escribir

$$y(\mathbf{z}) = \beta_0 + \beta_1 z_1 + \beta_2 z_2 + \varepsilon(\mathbf{z})$$

para un modelo de tendencia lineal . La tendencia lineal (representada por el $\beta_1$ y $\beta_2$ coeficientes) es una forma de captar la idea de que los valores cercanos $y(\mathbf{z})$ y $y(\mathbf{z}')$ , para $\mathbf{z}$ cerca de $\mathbf{z}'$ deberían tender a estar cerca unos de otros. Incluso podemos calcular esto considerando el valor esperado del tamaño de la diferencia entre $y(\mathbf{z})$ y $y(\mathbf{z}')$ , $E[|y(\mathbf{z}) - y(\mathbf{z}')|]$ . Resulta que las matemáticas son mucho más sencillo si utilizamos una medida de la diferencia ligeramente diferente: en su lugar, calculamos el al cuadrado diferencia:

$$\eqalign{ E[\left(y(\mathbf{z}) - y(\mathbf{z}')\right)^2] &= E[\left(\beta_0 + \beta_1 z_1 + \beta_2 z_2 + \varepsilon(\mathbf{z}) - \left(\beta_0 + \beta_1 z_1' + \beta_2 z_2' + \varepsilon(\mathbf{z}')\right)\right)^2] \\ &=E[\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)' + \varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] \\ &=E[\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2 \\ &\quad+ 2\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)\left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)\\ &\quad+ \left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] \\ &=\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2 + E[\left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] }$$

Este modelo está libre de cualquier autocorrelación espacial explícita, porque no hay ningún término en él que relacione directamente $y(\mathbf{z})$ a valores cercanos $y(\mathbf{z}')$ .

Un modelo alternativo, diferente, ignora la tendencia lineal y supone sólo que hay autocorrelación. Una forma de hacerlo es a través de la estructura de las desviaciones $\varepsilon(\mathbf{z})$ . Podríamos plantear que

$$y(\mathbf{z}) = \beta_0 + \varepsilon(\mathbf{z})$$

y, para dar cuenta de nuestra previsión de correlación, supondremos algún tipo de "estructura de covarianza" para el $\varepsilon$ . Para que esto tenga sentido desde el punto de vista espacial, supondremos que la covarianza entre $\varepsilon(\mathbf{z})$ y $\varepsilon(\mathbf{z}')$ , igual a $E[\varepsilon(\mathbf{z})\varepsilon(\mathbf{z}')]$ porque el $\varepsilon$ tienen media cero, tiende a disminuir a medida que $\mathbf{z}$ y $\mathbf{z}'$ se alejan cada vez más. Como los detalles no importan, vamos a llamar a esta covarianza $C(\mathbf{z}, \mathbf{z}')$ . Esto es autocorrelación espacial. De hecho, la correlación (habitual de Pearson) entre $y(\mathbf{z})$ y $y(\mathbf{z}')$ es

$$\rho(y(\mathbf{z}), y(\mathbf{z}')) = \frac{C(\mathbf{z}, \mathbf{z}')}{\sqrt{C(\mathbf{z}, \mathbf{z})C(\mathbf{z}', \mathbf{z}')}}.$$

En esta notación, la diferencia cuadrática esperada anterior de $y$ para el primer modelo es

$$\eqalign{ E[\left(y(\mathbf{z}) - y(\mathbf{z}')\right)^2] &= \left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2 + E[\left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] \\ &=\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2 + C_1(\mathbf{z}, \mathbf{z}) + C_1(\mathbf{z}', \mathbf{z}') }$$

(suponiendo que $\mathbf{z} \ne \mathbf{z}'$ ) porque el $\varepsilon$ en diferentes lugares se han supuesto independientes. He escrito $C_1$ en lugar de $C$ para indicar que es la función de covarianza del primer modelo.

Cuando las covarianzas de los $\varepsilon$ no varían drásticamente de un lugar a otro (de hecho, se suele suponer que son constantes), esta ecuación muestra que la diferencia esperada al cuadrado en $y$ aumenta cuadráticamente con la separación entre $\mathbf{z}$ y $\mathbf{z}'$ . La cantidad real de aumento está determinada por los coeficientes de tendencia $\beta_0$ y $\beta_1$ .

Veamos cuáles son las diferencias esperadas al cuadrado en el $y$ 's es para el nuevo modelo, el modelo 2:

$$\eqalign{ E[\left(y(\mathbf{z}) - y(\mathbf{z}')\right)^2] &= E[\left(\beta_0 + \varepsilon(\mathbf{z}) - \left(\beta_0 + \varepsilon(\mathbf{z}')\right)\right)^2] \\ &=E[\left(\varepsilon(\mathbf{z}) - \varepsilon(\mathbf{z}')\right)^2] \\ &=E[\varepsilon(\mathbf{z})^2 - 2 \varepsilon(\mathbf{z})\varepsilon(\mathbf{z}') + \varepsilon(\mathbf{z}')^2] \\ &=C_2(\mathbf{z}, \mathbf{z}) - 2C_2(\mathbf{z}, \mathbf{z}') + C_2(\mathbf{z}', \mathbf{z}'). }$$

De nuevo, esto se comporta de forma correcta: porque nos imaginamos $C_2(\mathbf{z}, \mathbf{z}')$ debe disminuir como $\mathbf{z}$ y $\mathbf{z}'$ se separan más, la diferencia esperada al cuadrado en $y$ 's de hecho va arriba con el aumento de la separación de los lugares.

Comparando las dos expresiones para $E[\left(y(\mathbf{z}) - y(\mathbf{z}')\right)^2]$ en los dos modelos nos muestra que $\left(\beta_1 (z_1-z_1') + \beta_2 (z_2-z_2)'\right)^2$ en el primer modelo desempeña un papel matemáticamente idéntico al de $-2C_2(\mathbf{z}, \mathbf{z}')$ en el segundo modelo. (Hay una constante aditiva al acecho, enterrada en los diferentes significados del $C_i(\mathbf{z}, \mathbf{z})$ pero no importa en este análisis). Ergo según el modelo, La correlación espacial suele representarse como una combinación de una tendencia y una estructura de correlación estipulada sobre errores aleatorios.

Ahora tenemos, espero, una respuesta clara a la pregunta: se puede representar la idea detrás de Ley de Geografía de Tobler ("todo está relacionado con todo lo demás, pero las cosas más cercanas están más relacionadas") de diferentes maneras. En algunos modelos, la Ley de Tobler se representa adecuadamente incluyendo tendencias (o términos de "deriva") que son funciones de coordenadas espaciales como la longitud y la latitud. En otros, la Ley de Tobler se capta mediante una estructura de covarianza no trivial entre términos aleatorios aditivos (el $\varepsilon$ ). En la práctica, los modelos incorporan ambos métodos. El que se elija depende de lo que se quiera conseguir con el modelo y de la opinión que se tenga sobre cómo surge la autocorrelación espacial: si está implícita en las tendencias subyacentes o si refleja variaciones que se quieren considerar aleatorias. Ninguna de las dos opciones es siempre correcta y, en un problema determinado, a menudo es posible utilizar ambos tipos de modelos para analizar los datos, comprender el fenómeno y predecir sus valores en otros lugares (interpolación).

58voto

David J. Sokol Puntos 1730

El principal problema de cualquier modelo estadístico son los supuestos en los que se basa cualquier procedimiento de inferencia. En el tipo de modelo que describes, los residuos se suponen independientes. Si tienen alguna dependencia espacial y ésta no se modela en la parte sistémica del modelo, los residuos de ese modelo también mostrarán dependencia espacial o, en otras palabras, estarán autocorrelacionados espacialmente. Dicha dependencia invalidaría la teoría que produce los valores p de las estadísticas de prueba en el GAM, por ejemplo; no se puede confiar en los valores p porque se calcularon asumiendo independencia.

Existen dos opciones principales para tratar estos datos: i) modelar la dependencia espacial en la parte sistemática del modelo, o ii) relajar el supuesto de independencia y estimar la correlación entre los residuos.

i) es lo que se intenta al incluir una suavidad de las localizaciones espaciales en el modelo. ii) requiere la estimación de la matriz de correlación de los residuos a menudo durante el ajuste del modelo mediante un procedimiento como los mínimos cuadrados generalizados. La eficacia de cualquiera de estos enfoques a la hora de tratar la dependencia espacial dependerá de la naturaleza y la complejidad de la dependencia espacial y de la facilidad con la que se pueda modelizar.

En resumen, si se puede modelar la dependencia espacial entre las observaciones, es más probable que los residuos sean variables aleatorias independientes y, por lo tanto, no violen los supuestos de ningún procedimiento inferencial.

4voto

JiveAssAdmin Puntos 49

Las otras respuestas son buenas, sólo quería añadir algo sobre la "contabilización" de la autocorrelación espacial. A veces esta afirmación se hace con más fuerza en la línea de "contabilizar la autocorrelación espacial no explicada por las covariables".

Esto puede presentar una imagen engañosa de lo que hace el liso espacial. No es como si hubiera una cola ordenada en la probabilidad en la que el suavizado espera pacientemente a que las covariables vayan primero y entonces el suavizado limpiará las partes "no explicadas". En realidad, todos tienen la oportunidad de explicar los datos.

Este artículo, con un título muy acertado, presenta la cuestión con mucha claridad, aunque desde el punto de vista de un modelo CAR los principios se aplican a los suavizados GAM.

La adición de errores relacionados con el espacio puede estropear el efecto fijo que tanto le gusta

La "solución" del documento es suavizar los residuos en lugar de suavizarlos en el espacio. Eso tendría el efecto de permitir que sus covariables expliquen lo que puedan. Por supuesto, hay muchas aplicaciones en las que esto no sería una solución deseable.

-1voto

mat_geek Puntos 1367

La correlación espacial es simplemente la relación entre las coordenadas x e y y la magnitud de la superficie resultante en el espacio. Así que la autocorrelación entre las coordenadas puede expresarse en términos de una relación funcional entre los puntos vecinos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X