3 votos

¿Por qué son tan grandes los residuos de Pearsons de una regresión de Poisson?

Según tengo entendido, los residuos de Pearsons son residuos ordinarios expresados en desviaciones típicas.

Ejecuté esta regresión de Poisson:

library(ggplot2)

glm_diamonds <- glm(price ~ carat, family = "poisson", data=diamonds)

A continuación, he guardado los residuos de Pearsons y los valores ajustados del modelo:

resid <- resid(glm_diamonds, type = "pearson")
fitted <- fitted(glm_diamonds)
df <- data.frame(resid, fitted)

A continuación, he comparado los residuos de Pearsons con los valores ajustados:

ggplot(df, aes(fitted, resid)) + geom_point() + ylab("Pearsons residuals") + xlab("Fitted values")

enter image description here

En el gráfico puede verse que muchos de los residuos se alejan cientos de unidades de cero. Si los residuos de Pearsons son desviaciones estándar, ¿por qué algunos residuos están a cientos de unidades de cero? O dicho de otro modo, ¿por qué los residuos no oscilan entre -3 y 3 si son desviaciones típicas?

5voto

jasonmray Puntos 1303

El punto clave es que el método de normalización para los residuos de Pearson consiste en dividir la diferencia entre los valores observados $y_i$ y la media de Poisson ajustada $\hat\mu_i$ por el teórico desviación típica implícita en esa media ajustada:

$$r_i=\frac{y_i - \hat\mu_i}{\sqrt{\hat\mu_i}}$$

Por lo tanto, si el modelo está mal especificado, la supuesta relación $\operatorname{Var} \mu_i=\mu_i$ puede ser muy inexacto: hay un exceso de dispersión, como dice @probabilityislogic; además, las medias ajustadas son demasiado grandes para las piedras de muchos quilates, lo que indica que la supuesta relación lineal entre la media logarítmica y los quilates es demasiado simple.

1voto

M_1 Puntos 313

Para la regresión de Poisson, puede intentar utilizar el residuo de desviación en lugar del residuo de Pearson. Los residuos de desviación están menos sesgados si hay un número inusualmente alto de recuentos de casos cero o valores medios cercanos a cero. En este caso, se sabe que Pearson subestima el GOF. La probabilidad, Pearson y Desviación para cada registro se determinan como:

${Likelihood}: l_i= \mu_{ij} \log(\hat{\mu}_{ij} / T_{ij}) - \hat{\mu}_{ij}$

${Deviance}: r_D = \mu_{ij} \log(\mu_{ij}/\hat{\mu}_{ij}) + (\hat{\mu}_{ij} - \mu_{ij})$

${Pearson}: r_P = (\mu_{ij} - \hat{\mu}_{ij}) ^ 2 / \hat{\mu}_{ij}=(\mu_{ij} - \hat{\mu}_{ij}) / \sqrt{\hat{\mu}_{ij}}$ ,

donde $d_{ij}$ es el número de casos observados, $\hat{d}_{ij}$ es el número esperado de casos, y $T_{ij}$ es el tiempo de seguimiento. (Para tu información, en biomedicina, si trabajas con casos o muertes, $d_{ij}=\mu_{ij}$ es el número observado de muertes, y $\hat{d}_{ij}=\hat{\mu}_{ij}$ es el número esperado de muertes).

En cuanto a las pruebas de bondad de ajuste, $\sum r_D$ , $\sum r_D$ son ambos $\sim \chi^2_{n-p}$ . Por lo tanto, si el doble de la suma de los residuos de desviación, $2\sum r_D < \chi^2_{n-p}$ entonces el modelo se ajusta. Aquí $n$ es el número de registros, y $p$ es el número de parámetros del modelo. He observado muchos modelos para los que el doble de la suma de los residuos de desviación $2\sum r_D$ era inferior a $\sum r_P$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X