54 votos

¿Cómo leer los gráficos de distancia de Cook?

¿Alguien sabe cómo calcular si los puntos 7, 16 y 29 son puntos influyentes o no? He leído en algún sitio que como la distancia de Cook es inferior a 1, no lo son. ¿Estoy en lo cierto?

enter image description here

59voto

Algunos textos dicen que los puntos para los que la distancia de Cook es superior a 1 deben considerarse influyentes. Otros textos le dan un umbral de $4/N$ o $4/(N - k - 1)$ , donde $N$ es el número de observaciones y $k$ el número de variables explicativas. En su caso, esta última fórmula debería arrojar un umbral en torno a 0,1 .

John Fox (1), en su folleto sobre diagnósticos de regresión, es bastante cauto a la hora de dar umbrales numéricos. Aconseja el uso de gráficos y examinar con más detalle los puntos con "valores de D que son sustancialmente mayores que el resto". Según Fox, los umbrales sólo deberían utilizarse para mejorar las representaciones gráficas.

En su caso, las observaciones 7 y 16 podrían considerarse influyentes. Yo, al menos, las miraría más de cerca. La observación 29 no es sustancialmente diferente de un par de otras observaciones.


(1) Fox, John. (1991). Diagnóstico de regresión: Una introducción . Publicaciones Sage.

35voto

Sean Hanley Puntos 2428

+1 tanto a @lejohn como a @whuber. Quería ampliar un poco el comentario de @whuber. La distancia de Cook se puede contrastar con dfbeta. La distancia de Cook se refiere a la distancia, en promedio, valores y predichos se moverá si la observación en cuestión se elimina del conjunto de datos. dfbeta se refiere a cuánto una estimación de parámetros cambia si la observación en cuestión se elimina del conjunto de datos. Tenga en cuenta que con $k$ covariables, habrá $k+1$ dfbetas (la intercepción, $\beta_0$ y 1 $\beta$ para cada covariable). La distancia de Cook es presumiblemente más importante para usted si está haciendo un modelado predictivo, mientras que dfbeta es más importante en el modelado explicativo.

Hay otro punto que vale la pena señalar aquí. En la investigación observacional, a menudo es difícil realizar un muestreo uniforme en el espacio de los predictores, y es posible que sólo haya unos pocos puntos en un área determinada. Dichos puntos pueden divergir del resto. Tener unos pocos casos distintos puede ser desconcertante, pero merecen una reflexión considerable antes de ser relegados como valores atípicos. Es posible que haya una interacción legítima entre los predictores, o que el sistema cambie para comportarse de forma diferente cuando los valores de los predictores se vuelven extremos. Además, pueden ayudarle a desentrañar los efectos de los predictores colineales. Los puntos influyentes podrían ser una bendición disfrazada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X