Processing math: 100%

11 votos

¿Qué tipo de residuos y distancia de Cook se utilizan para el GLM?

¿Alguien sabe cuál es la fórmula de la distancia de Cook? La fórmula original de la distancia de Cook utiliza los residuos estudiados, pero ¿por qué R utiliza los residuos std. Pearson cuando se calcula el gráfico de la distancia de Cook para un MLG. Sé que los residuos diferenciados no están definidos para los MLG, pero ¿cómo es la fórmula para calcular la distancia de Cook?

Supongamos el siguiente ejemplo:

numberofdrugs <- rcauchy(84, 10)
healthvalue <- rpois(84,75)
test <- glm(healthvalue ~ numberofdrugs, family=poisson)
plot(test, which=5) 

¿Cuál es la fórmula de la distancia de Cook? En otras palabras, ¿cuál es la fórmula para calcular la línea roja discontinua? ¿Y de dónde viene esta fórmula para los residuos estandarizados de Pearson?

cook's distance

15voto

DavLink Puntos 101

Si echas un vistazo al código (tipo simple plot.lm sin paréntesis, o edit(plot.lm) en el indicador R), verá que Las distancias del cocinero se definen en la línea 44, con el cooks.distance() función. Para ver lo que hace, escriba stats:::cooks.distance.glm en el indicador R. Allí verá que está definido como

(res/(1 - hat))^2 * hat/(dispersion * p)

donde res son los residuos de Pearson (devueltos por el influence() función), hat es el matriz del sombrero , p es el número de parámetros del modelo, y dispersion es la dispersión considerada para el modelo actual (fijada en uno para la regresión logística y de Poisson, véase help(glm) ). En resumen, se calcula en función del apalancamiento de las observaciones y sus residuos estandarizados. (Compárese con stats:::cooks.distance.lm .)

Para una referencia más formal puede seguir las referencias en el plot.lm() función, a saber

Belsley, D. A., Kuh, E. y Welsch, R. E. (1980). Diagnóstico de regresión . Nueva York: Wiley.

Además, sobre la información adicional que se muestra en los gráficos, podemos mirar más allá y ver que R utiliza

plot(xx, rsp, ...                    # line 230
panel(xx, rsp, ...)                  # line 233
cl.h <- sqrt(crit * p * (1 - hh)/hh) # line 243
lines(hh, cl.h, lty = 2, col = 2)    #
lines(hh, -cl.h, lty = 2, col = 2)   #  

donde rsp se etiqueta como residuo estándar de Pearson en el caso de un MLG, residuos estándar en caso contrario (línea 172); en ambos casos, sin embargo, la fórmula utilizada por R es (líneas 175 y 178)

residuals(x, "pearson") / s * sqrt(1 - hii)

donde hii es la matriz del sombrero devuelta por la función genérica lm.influence() . Esta es la fórmula habitual para los residuos estándar:

rsj=rj1ˆhj

donde j aquí denota el j covariable de interés. Véase, por ejemplo, Agresti Análisis de datos categóricos , §4.5.5.

Las siguientes líneas de código R dibujan un suavizador para la distancia de Cook ( add.smooth=TRUE en plot.lm() por defecto, véase getOption("add.smooth") ) y las líneas de contorno (no visibles en su gráfico) para los residuos críticos estandarizados (véase el cook.levels= opción).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X