¿Qué tipo de residuos y distancia de Cook se utilizan para el GLM?

Question

¿Qué tipo de residuos y distancia de Cook se utilizan para el GLM?

Preguntado el 6 de Junio, 2011: Cuando se hizo la pregunta
2793 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

¿Alguien sabe cuál es la fórmula de la distancia de Cook? La fórmula original de la distancia de Cook utiliza los residuos estudiados, pero ¿por qué R utiliza los residuos std. Pearson cuando se calcula el gráfico de la distancia de Cook para un MLG. Sé que los residuos diferenciados no están definidos para los MLG, pero ¿cómo es la fórmula para calcular la distancia de Cook?

Supongamos el siguiente ejemplo:

numberofdrugs <- rcauchy(84, 10)
healthvalue <- rpois(84,75)
test <- glm(healthvalue ~ numberofdrugs, family=poisson)
plot(test, which=5)

¿Cuál es la fórmula de la distancia de Cook? En otras palabras, ¿cuál es la fórmula para calcular la línea roja discontinua? ¿Y de dónde viene esta fórmula para los residuos estandarizados de Pearson?

cook's distance

Preguntado el 6 de Junio, 2011 por Dave Verwer

Answer 1

1 Respuestas

Answer 2

15voto

DavLink Puntos 101

Si echas un vistazo al código (tipo simple plot.lm sin paréntesis, o edit(plot.lm) en el indicador R), verá que Las distancias del cocinero se definen en la línea 44, con el cooks.distance() función. Para ver lo que hace, escriba stats:::cooks.distance.glm en el indicador R. Allí verá que está definido como

(res/(1 - hat))^2 * hat/(dispersion * p)

donde res son los residuos de Pearson (devueltos por el influence() función), hat es el matriz del sombrero , p es el número de parámetros del modelo, y dispersion es la dispersión considerada para el modelo actual (fijada en uno para la regresión logística y de Poisson, véase help(glm) ). En resumen, se calcula en función del apalancamiento de las observaciones y sus residuos estandarizados. (Compárese con stats:::cooks.distance.lm .)

Para una referencia más formal puede seguir las referencias en el plot.lm() función, a saber

Belsley, D. A., Kuh, E. y Welsch, R. E. (1980). Diagnóstico de regresión . Nueva York: Wiley.

Además, sobre la información adicional que se muestra en los gráficos, podemos mirar más allá y ver que R utiliza

plot(xx, rsp, ...                    # line 230
panel(xx, rsp, ...)                  # line 233
cl.h <- sqrt(crit * p * (1 - hh)/hh) # line 243
lines(hh, cl.h, lty = 2, col = 2)    #
lines(hh, -cl.h, lty = 2, col = 2)   #

donde rsp se etiqueta como residuo estándar de Pearson en el caso de un MLG, residuos estándar en caso contrario (línea 172); en ambos casos, sin embargo, la fórmula utilizada por R es (líneas 175 y 178)

residuals(x, "pearson") / s * sqrt(1 - hii)

donde hii es la matriz del sombrero devuelta por la función genérica lm.influence() . Esta es la fórmula habitual para los residuos estándar:

$rs_j=\frac{r_j}{\sqrt{1-\hat h_j}}$

donde $j$ aquí denota el $j$ covariable de interés. Véase, por ejemplo, Agresti Análisis de datos categóricos , §4.5.5.

Las siguientes líneas de código R dibujan un suavizador para la distancia de Cook ( add.smooth=TRUE en plot.lm() por defecto, véase getOption("add.smooth") ) y las líneas de contorno (no visibles en su gráfico) para los residuos críticos estandarizados (véase el cook.levels= opción).

Respondido el 6 de Junio, 2011 por DavLink (101 Puntos )

¿Qué tipo de residuos y distancia de Cook se utilizan para el GLM?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Qué tipo de residuos y distancia de Cook se utilizan para el GLM?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: