5 votos

Viabilidad de la regresión espacial binomial negativa

Tengo un conjunto de datos de recuento de delitos en el que parece que los datos adoptan una distribución binomial negativa. He tenido cierto éxito convirtiendo la variable dependiente (un recuento de delitos) en una tasa y luego transformándola logarítmicamente y utilizando un modelo de Durbin espacial logarítmico o modelos de retardo espacial y error espacial.

Por el contrario, he realizado una regresión binomial negativa sobre los datos de recuento (con un desplazamiento de población) sin tener en cuenta la autocorrelación espacial.

Me pregunto si alguien ha encontrado una forma fiable de aplicar técnicas autorregresivas espaciales a GLMs (NB, Poisson). Si alguien ha tenido éxito con esto en Stata, estaría particularmente curioso de aprender cómo.

Si yo fuera a correr nbreg en Stata, pero aplicando mi matriz de ponderaciones y rezagando la variable dependiente, ¿puedo interpretar directamente el coeficiente de ese término como lo haría con el término rho en una regresión espacial rezagada (por supuesto, teniendo en cuenta cómo difieren los coeficientes NB de los generados por una MCO)?

0 votos

Nota para los lectores: A pesar de la mención de Stata en el título, ésta parece ser una cuestión principalmente estadística.

0 votos

N.B. NB = binomio negativo aquí, no nota bene.

0 votos

Véase también la misma pregunta que hizo el OP en el Sitio SIG . (Por lo general, la publicación cruzada se desaconseja - bienvenido al sitio).

5voto

Judioo Puntos 625

El modelo de Poisson (y posteriormente el binomial negativo) no puede tener un desfase espacial endógeno, ya que implica que la distribución es no estacionaria (cuando el término autorregresivo es positivo). Consideremos un ejemplo más sencillo con datos de series temporales. Con un modelo lineal, digamos que estimamos la ecuación (con un término autorregresivo):

$$y_t = 0.5 \cdot y_{t-1} + e$$

Ahora digamos que la serie en $t_0 = 0$ y en el momento $t_1$ se produce un choque en el sistema de $4$ ¿Qué ocurre con este choque a lo largo del tiempo?

$$\begin{array} \\ y_1 = 4 \\ y_2 = 0.5 \cdot 4 = 2 \\ y_3 = 0.5 \cdot 2 = 1 \\ y_4 = 0.5 \cdot 1 = 0.5 \\ \vdots \end{array}$$

El efecto global de ese choque acaba descomponiéndose en $0$ . ¿Qué ocurre con un modelo de Poisson (y posteriormente con el binomio negativo) y la función exponencial?

$$y_t = \exp(0.1 \cdot y_{t-1})$$

\begin{array} \\ y_1 = 4 \\ y_2 = \exp(0.1 \cdot 4) \approx 1.5 \\ y_3 = \exp(0.1 \cdot 1.5) \approx 1.2 \\ y_4 = \exp(0.1 \cdot 1.2) \approx 1.1 \\ \vdots \end{array}

En el límite esto simplemente pasa a $1.1$ y así este shock nunca desaparece. Si rellenamos los números con un término autorregresivo de $0.5$ en su lugar tendrá un término explosivo. Que el término sea explosivo o no depende del tamaño del choque, siendo la relación $\exp(a \cdot x) < x$ . Así que cualquier choque que no satisfaga la relación $a < \log(x)/x$ será explosivo, y cualquier término autorregresivo sobre $\log(3)/3 \approx 0.37$ será explosivo para cualquier tamaño de choque del sistema para enteros positivos. El mismo problema se plantea en los modelos con desfases espaciales en lugar de temporales.

¿Cómo se ha abordado esta cuestión en los modelos espaciales de recuento? Normalmente, la gente se centra en modelizar la autocorrelación en los errores del sistema, en contraposición a un desfase espacial endógeno (para un contraejemplo, véase Lambert et al. (2010) - en el que el término AR es el registro del desfase espacial más una pequeña constante). Sin embargo, la modelización del error puede hacerse de varias maneras, incluyendo los términos en función de la ubicación espacial o de otras formas (por ejemplo, términos de vectores propios basados en los residuos ponderados), véase Dormann et al., (2007) para una revisión. Para otro enfoque único, véase Bhati (2008) (que publicó macros SAS para estimar dichos modelos).

Un enfoque popular en epidemiología es estimar modelos autorregresivos condicionales, que son conceptualmente un poco diferentes pero populares en un enfoque bayesiano (es más como utilizar el desfase espacial como un offset). Skrondal y Rabe-Hesketh (2004) tener un ejemplo en Stata.

Aunque el uso de modelos binomiales negativos para los datos de recuento de delitos es básicamente una norma de facto en los trabajos académicos, personalmente, mi experiencia con los datos de recuento de delitos me hace pensar que modelizar los recuentos utilizando OLS no es tan malo (la función exponencial tiene sus propios problemas ).

0 votos

Lo que Andrew llama un enlace exponencial es, al menos en mi experiencia, más comúnmente llamado un enlace logarítmico. La forma de pensar puede influir en la terminología, pero eso no la convierte en estándar.

0 votos

La esencia de esto parece ser que los choques aditivos no se mezclan bien con los modelos multiplicativos. Así pues, la relevancia de esto debería depender de hasta qué punto tiene sentido imaginar choques aditivos cuando la escala "natural" o al menos conveniente para trabajar es la logarítmica. Una de las principales razones para utilizar un vínculo logarítmico es garantizar predicciones positivas para la respuesta; no está claro que la incomodidad imaginada aquí supere la mayor incomodidad de las predicciones absurdas posibles de otro modo, como los recuentos negativos de delitos, etc.

0 votos

@NickCox mi experiencia personal es que la función exponencial no parece ser un ajuste razonable para muchas de las situaciones que he tratado (ver un ejemplo de mi tesis doctoral). Las predicciones negativas no significan necesariamente que no se puedan hacer inferencias adecuadas a partir de modelos lineales (véase Berk, et al. 2014 expresando una preferencia similar).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X