10 votos

¿Cuándo utilizar errores estándar robustos en la regresión de Poisson?

Estoy utilizando un modelo de regresión de Poisson para datos de conteo y me pregunto si hay razones no utilizar el error estándar robusto para las estimaciones de los parámetros? Estoy especialmente preocupado porque algunas de mis estimaciones sin el error estándar robusto no son significativas (por ejemplo, p=0,13), pero con el error estándar robusto son significativas (p<0,01).

En SAS esto está disponible utilizando la sentencia repetida en proc genmod (por ejemplo, repeated subject=patid; ). He estado usando http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm como ejemplo que cita un trabajo de Cameron y Trivedi (2009) en apoyo del uso de errores estándar robustos.

6voto

Craig Walker Puntos 13478

En general, si tiene alguna sospecha de que sus errores son heteroskedásticos, debe utilizar errores estándar robustos. El hecho de que sus estimaciones se vuelvan no significativas cuando no utiliza SEs robustos sugiere (pero no prueba) la necesidad de SEs robustos. Estos SEs son "robustos" al sesgo que la heteroskedasticidad puede causar en un modelo lineal generalizado.

Sin embargo, esta situación es un poco diferente, ya que se están superponiendo a la regresión de Poisson.

Poisson tiene la conocida propiedad de que obliga a que la dispersión sea igual a la media, independientemente de que los datos lo apoyen o no. Antes de considerar los errores estándar robustos, yo intentaría una regresión binomial negativa, que no sufre este problema. Hay una prueba (véase el comentario) para ayudar a determinar si el cambio resultante en los errores estándar es significativo.

No sé con certeza si el cambio que se observa (pasar a SEs robustos estrecha el IC) implica sub-dispersión, pero parece probable. Echa un vistazo al modelo apropiado (creo que binomial negativo, pero una búsqueda rápida en Google también sugiere cuasi-Poisson para la sub-dispersión) y ve lo que obtienes en esa configuración.

1voto

alexs77 Puntos 36

Diferenciaré los análisis que utilizan errores estándar basados en el modelo frente a los robustos refiriéndome a estos últimos como "GEEs", que es de hecho una definición intercambiable. Además de la fantástica explicación de Scortchi:

Los GEE pueden estar "sesgados" en muestras pequeñas, es decir, de 10 a 50 sujetos: (Lipsitz, Laird y Harrington, 1990; Emrich y Piedmonte, 1992; Sharples y Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte y Williams, 1994; Gunsolley, Getchell y Chinchilli, 1995; Sherman y le Cessie, 1997). Cuando digo que los GEEs están sesgados lo que quiero decir es que la estimación del error estándar puede ser conservadora o anticonservadora debido a recuentos de células pequeños o nulos, dependiendo de qué valores ajustados muestren este comportamiento y de lo consistentes que sean con la tendencia general del modelo de regresión.

En general, cuando el modelo paramétrico está correctamente especificado, se siguen obteniendo estimaciones correctas del error estándar a partir de los IC basados en el modelo, pero el objetivo de utilizar la GEE es dar cabida a ese gran "si". Las GEE permiten al estadístico simplemente especificar un modelo de probabilidad de trabajo para los datos, y los parámetros (en lugar de ser interpretados en el marco estrictamente paramétrico) se consideran un tipo de "tamiz" que puede generar valores reproducibles independientemente del mecanismo subyacente y desconocido de generación de datos. Este es el corazón y el alma del análisis semiparamétrico, del que un GEE es un ejemplo.

Los GEEs también manejan las fuentes de covariación no medidas en los datos, incluso con la especificación de una matriz de correlación independiente. Esto se debe al uso de la matriz de covarianza empírica en lugar de la basada en el modelo. En la modelización de Poisson, por ejemplo, podría estar interesado en las tasas de fertilidad de los salmones muestreados en varios arroyos. Los óvulos recolectados de las hembras podrían tener una distribución de Poisson subyacente, pero la variación genética que comprende la heretibilidad compartida y los recursos disponibles en arroyos específicos podría hacer que los peces dentro de esos arroyos sean más similares que entre otros arroyos. La GEE dará estimaciones correctas del error estándar de la población siempre que la tasa de muestreo sea coherente con su proporción poblacional (o esté estratificada de otra manera).

1voto

Neal Puntos 316

Haces una prueba de la nula de equidispersión. Es una simple regresión OLS auxiliar. Hay una descripción en página 670 de Cameron y Trivedi. Con una gran sobredispersión, los errores estándar están muy desinflados, por lo que yo desconfiaría de cualquier resultado que dependa de un VCE no robusto cuando hay sobredispersión. Con sub-dispersión, lo contrario será cierto, que suena como el escenario en el que estás.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X