104 votos

Interpretación de plot.lm()

Tenía una pregunta sobre la interpretación de los gráficos generados por plot(lm) en R. Me preguntaba si ustedes podrían decirme cómo interpretar los gráficos de escala-ubicación y apalancamiento-residual. Cualquier comentario será apreciado. Asumo conocimientos básicos de estadística, regresión y econometría.

0 votos

has echado un vistazo aquí ?

7 votos

y aquí (a partir de la página 72), aquí .

157voto

Sean Hanley Puntos 2428

Como se indica en la documentación , plot.lm() puede devolver 6 parcelas diferentes:

[1] un gráfico de los residuos frente a los valores ajustados, [2] un gráfico de Escala-Localización de sqrt(| residuos |) contra los valores ajustados, [3] un gráfico Q-Q normal, [4] un gráfico de las distancias de Cook frente a las etiquetas de las filas, [5] un gráfico de los residuos contra apalancamiento, y [6] un gráfico de las distancias de Cook contra apalancamiento/(1-apalancamiento). Por defecto, se proporcionan los tres primeros y el 5. ( mi numeración )

Parcelas [1] , [2] , [3] & [5] se devuelven por defecto. Interpretación de [1] se discute en CV aquí: Interpretación de los residuos frente al gráfico ajustado para verificar los supuestos de un modelo lineal . He explicado la hipótesis de la homocedasticidad y los gráficos que pueden ayudarle a evaluarla (incluidos los gráficos de localización de la escala [2] ) en el CV aquí: ¿Qué significa tener una varianza constante en un modelo de regresión lineal? He hablado de los gráficos qq [3] en el CV aquí: El gráfico QQ no coincide con el histograma y aquí: Parcelas PP vs. Parcelas QQ . También hay una muy buena visión general aquí: ¿Cómo interpretar un QQ-plot? Así que, lo que queda es principalmente la comprensión [5] el diagrama de residuo-apalancamiento.

Para entender esto, tenemos que comprender tres cosas:

  • de la palanca,
  • residuos estandarizados, y
  • La distancia del cocinero.

Para entender Aprovechar , reconocen que Mínimos cuadrados ordinarios se ajusta a una línea que pasa por el centro de los datos, $(\bar X,~\bar Y)$ . La línea puede tener una pendiente superficial o pronunciada, pero pivotará alrededor de ese punto como un palanca en un fulcrum . Podemos tomar esta analogía de forma bastante literal: como OLS busca minimizar las distancias verticales entre los datos y la línea*, los puntos de datos que están más alejados hacia los extremos de $X$ empujarán / tirarán más fuerte de la palanca (es decir, de la línea de regresión); tienen más Aprovechar . Uno de los resultados de este podría ser que los resultados que obtienes se basan en unos pocos puntos de datos; eso es lo que este gráfico pretende ayudarte a determinar.

Otro resultado del hecho que apunta más allá en $X$ tienen más influencia es que tienden a estar más cerca de la línea de regresión (o más exactamente: la línea de regresión se ajusta para estar más cerca de ellos ) que los puntos que están cerca de $\bar X$ . En otras palabras, el residual desviación estándar puede diferir en diferentes puntos de $X$ (incluso si el error desviación estándar es constante). Para corregir esto, los residuos suelen ser estandarizado para que tengan una varianza constante (suponiendo que el proceso de generación de datos subyacente sea homocedástico, por supuesto).

Una forma de pensar en si los resultados que tiene fueron impulsados por un punto de datos dado es calcular hasta dónde se moverían los valores predichos para sus datos si su modelo se ajustara sin el punto de datos en cuestión. Esta distancia total calculada se denomina La distancia del cocinero . Afortunadamente, no tiene que volver a ejecutar su modelo de regresión $N$ veces para saber hasta dónde se moverán los valores predichos, la D de Cook es una función del apalancamiento y del residuo estandarizado asociado a cada punto de datos.

Teniendo en cuenta estos hechos, considere las parcelas asociadas a cuatro situaciones diferentes:

  1. un conjunto de datos donde todo está bien
  2. un conjunto de datos con un punto residual de alto apalancamiento, pero de baja estandarización
  3. un conjunto de datos con un punto residual de bajo apalancamiento, pero de alta estandarización
  4. un conjunto de datos con un punto residual de alto apalancamiento y estandarizado

enter image description here enter image description here

Los gráficos de la izquierda muestran los datos, el centro de los datos $(\bar X,~\bar Y)$ con un punto azul, el proceso de generación de datos subyacente con una línea gris discontinua, el ajuste del modelo con una línea azul y el punto especial con un punto rojo. A la derecha están los correspondientes gráficos de residuo-promedio; el punto especial es 21 . El modelo está muy distorsionado sobre todo en el cuarto caso, en el que hay un punto con un elevado apalancamiento y un gran residuo normalizado (negativo). Como referencia, aquí están los valores asociados a los puntos especiales:

                              leverage std.residual   cooks.d
high leverage,  low residual 0.3814234    0.0014559 0.0000007
low leverage,  high residual 0.0476191    3.4456341 0.2968102
high leverage, high residual 0.3814234   -3.8086475 4.4722437

A continuación se muestra el código que he utilizado para generar estos gráficos:

set.seed(20)

x1 = rnorm(20, mean=20, sd=3)
y1 = 5 + .5*x1 + rnorm(20)

x2 = c(x1, 30);        y2 = c(y1, 20.8)
x3 = c(x1, 19.44);     y3 = c(y1, 20.8)
x4 = c(x1, 30);        y4 = c(y1, 10)

* Para ayudar a entender cómo la regresión OLS busca encontrar la línea que minimiza las distancias verticales entre los datos y la línea, vea mi respuesta aquí: <a href="https://stats.stackexchange.com/questions/22718/what-is-the-difference-between-linear-regression-on-y-with-x-and-x-with-y/22721#22721">¿Cuál es la diferencia entre la regresión lineal de y con x y la de x con y?</a>

0 votos

Buena respuesta que apunta en todas las direcciones de escritura para aprender más. (Tengo que preguntarme por qué hay una escasez de explicaciones completas y claras de estas parcelas)

0 votos

Aunque aquí es un ejemplo de una breve explicación consolidada de cada parcela.

0 votos

Respuesta útil, incluyendo que hay seis gráficos disponibles en plot.lm(). ¿Qué es la línea roja (no punteada) en los gráficos de residuos?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X