4 votos

Los residuos siguen exactamente el mismo patrón de puntos de datos

Me han remitido los datos de las precipitaciones en los años 1990-2010. Se trataba de una simple regresión lineal en R usando el lm() función. Los datos representan la media anual de la cantidad de lluvia en mm. Cuando he trazado los residuos, sin embargo, me di cuenta de que siguen exactamente el mismo patrón de agrupación y como mis datos.

Es esto normal o porque he retrocedido con año como una variable y no debería tener? Gracias.

6voto

user2735206 Puntos 51

Si es un predictor de regresión lineal, entonces lo que se observa es normal. Ver esta ilustración para la explicación:

enter image description here

El orden en la escala de año es el mismo que si están en la escala de lo pronosticado lluvia. En la foto de abajo, el rojo de doble cabeza flechas apuntan en la observó $x$ $y$ de dos puntos de datos, $i$$j$, y su correspondiente posición en el resultado previsto (sobre la línea de regresión, yhat). Se puede ver que $x_i$ viene antes de $x_j$ sobre el continuum de año, y $\hat{y}_i$ viene antes de $\hat{y}_j$ sobre la línea de regresión. Por lo tanto, si se hace una gráfica de los residuales de la parcela mediante predijo el resultado, $\hat{y}$, como el eje horizontal, el orden horizontal y la distancia relativa de los puntos de datos no cambian.

Ahora, verticalmente, residual es sólo la distancia entre observó $y$ y predijo $y$, los cuales están representados por las flechas rojas para dos puntos de datos elegidos. Así, la propagación vertical se conserva así.

En pocas palabras, en una variable de regresión lineal, el residual vería como el diagrama de dispersión, pero el de la línea de regresión inclinado a nivel. Una vez que usted agrega otro predictor o más, esto no será verdad.

5voto

Nick Stauner Puntos 8220

Los residuos son los errores en las predicciones de su modelo lineal para cada observación. Porque el suyo es un simple modelo lineal, sus errores se parecen mucho a sus observaciones, pero no son exactamente idénticos. Su línea de regresión en el primer diagrama de dispersión es esencialmente la misma que la línea punteada horizontal en su segundo diagrama de dispersión, Residuals vs. Fitted, pero en ángulo hacia arriba para reflejar una correlación positiva entre el año y las precipitaciones, y que pasa a través de coordenadas diferentes. Por tanto, el patrón sólo se diferencia entre estos dos diagramas de dispersión en términos de que la rotación angular y las ubicaciones de sus coordenadas. I. e., su Residuals vs. Fitted diagrama de dispersión gira y se trasladó a los datos de coordenadas de modo que su diagrama de dispersión $x$ $y$ ejes cambiado desde Year y Rainfall, respectivamente, a: $$x_{\text{Residuos vs Equipada}}= \text{Año}\times\text{pendiente}+\text{interceptar }\\\ \ y_{\text{Residuos vs Equipada}}=\text{Lluvia} - x_{\text{Residuos vs Equipada}}$$ Por lo tanto su coeficiente de la pendiente determina el cambio en el ángulo y su intercepto coeficiente de cambios en la ubicación de la observación de un patrón en su espacio de coordenadas. Si uno se acerca a cero, sus patrones sería mucho más idénticos. Ya sea el valor de ser exactamente cero es perfectamente tolerable y potencialmente significativa resultado de una regresión lineal. De hecho, estos representan la hipótesis nula de típicos $t$ pruebas para los coeficientes, así que tienen que ser tolerable y de interpretar los resultados – de lo contrario, uno no puede realmente tratar de falsear los valores nulos de esta manera (sin embargo, la regresión no es un NHST en sí).

@Penguin_Knight la respuesta es una alternativa útil a la redacción de mi punto aquí, con una consideración adicional de regresión múltiple, que puede que desee considerar si usted tiene otras variables independientes le gustaría relacionarse con la lluvia. @carlos " la respuesta es una respuesta interesante a si se debería haber utilizado este modelo en particular. Edificio en esto, aquí hay algunos otros puntos a considerar:

  • Su Residuals vs. Fitted parcela tiene una convexa, localmente ponderada diagrama de dispersión de suavizado () de la línea dibujada a través de ella, si no me equivoco. Porque es convexa, es posible que desee probar polinomio de regresión o de otro los enfoques de si usted puede conseguir más datos...pero con 21 observaciones (uno por año, ¿verdad?), estos son los ejercicios en . Su utilidad depende de su propósito.

    • He intentado echando un vistazo a su Rainfall datos como aproximadamente la siguiente: Rainfall=c(45,36,53,52,52,43,41,47,55,54,68,47,63,42,57,50,61,60,65,55,47)
      luego intentó summary(lm(Rainfall~Year+Year2)) donde Year=1990:2010 y Year2=scale(Year,scale=F)^2 (parece que no Puede cuadrado Year dentro lm()...). Aquí es lo que tengo: $$\text{Rainfall}=.64\times\text{Year}-.05\times\text{Year}^2-122$$ Esto agravó el modelo de la $F$$R^2$, y con $t_{(18)}=-.99,p=.34$ para el término cuadrático, yo no rechazar una hipótesis nula que niega una relación curvilínea, pero es más bonito:elaborado con curveplot(Year,Rainfall) donde
      curveplot=function(x,y){plot(x,y);x2=scale(x,scale=F)^2; lines(x,predict(lm(y~x+x2))) lines(x,predict(lm(y~x+x2),interval='confidence')[,2],lty=3) #(these two lines plot lines(x,predict(lm(y~x+x2),interval='confidence')[,3],lty=3)} #(95% s)

      Puede ejecutar esta función en los datos reales, ya que mis ojos distorsionada de su Rainfall datos...o quizás no. Es un modelos más complejos, podría ser overfitted, y que realmente no hay suficiente evidencia de una tendencia curvilínea. Si usted fuera el modelado de un período de tiempo más largo o tratando de predecir las lluvias durante años fuera de 1990-2010, es casi seguro que no quieres una ecuación cuadrática Year plazo, porque hace que el $\lim_{\text{Year}\rightarrow\pm\infty}=-\infty$ (siempre y cuando sea negativo, como en este caso). De ahí que sólo sugieren que en caso de que usted desee para describir el paulatino descenso de la pendiente en este marco de tiempo específico con un relativamente simplista del modelo (por ejemplo, como se evidencia en contra de una fuerte curva). También quería mostrar un simple intervalo de confianza de la trama!
  • Si usted tiene información más precisa acerca de los tiempos de sus observaciones – por ejemplo, si no eran exactamente anual, y usted sabe cuántos días/semanas/meses corto de un año completo de cada observación de Rainfall pertenece a – podría mejorar la precisión de su Year valores, debido a que un modelo de regresión lineal simple ajuste con OLS supone que las variables son continuas. E. g., si en 1995, en la observación se refiere a la suma de las precipitaciones de las mediciones de inicio después de la última lluvia de medición de 1994 el 25 de diciembre y terminando con la última lluvia de 1995 6 de diciembre, usted podría considerar la posibilidad de establecer el valor de Year correspondiente a la sexta observación de Rainfall a $\frac{346}{365}$ mayor que el valor anterior, no exactamente 1 superior. Es posible que no desee; esto complica su trabajo, y no importa mucho mientras las verdaderas diferencias de tiempo entre sus observaciones no varían demasiado.

    La lluvia anual de las mediciones entre los 35–70mm implica increíble aridez a pesar de que – incluso en la Antártida hace más de precipitaciones que, en su mayoría. Incluso si usted en realidad significaba centímetros, esto es probablemente todavía un desierto. Si no llueve a menudo en la región de interés, el tiempo real de las diferencias entre las observaciones pueden variar ampliamente. Si usted puede mantener esa información, usted debe. También, si usted tiene información sobre observaciones por separado dentro de los años que se suma a simplificar el análisis, tenga en cuenta que esta es la reducción de la exactitud de su modelo. La precipitación anual se acumula como una de la función del día del año, y en los climas áridos, puede ser útil para incorporar en el modelo, debido a que muchos días no ver nada de lluvia.

    Si usted puede modelar Rainfall a lo largo del tiempo con desglosados mediciones y fechas específicas, también tendrás que preocuparte más por los ciclos estacionales después de todo, después de charles original de razonamiento. Nunca el miedo; estaremos encantados de ayudarle a elegir el modelo adecuado para ese tipo de datos es demasiado, si usted describir su desglosados por la naturaleza en una cuestión separada (es decir, no tratar de cambiar esta pregunta para describirlo). Si sus datos son necesariamente de forma agregada para el nivel anual, y si usted no tiene medida específica fechas, usted puede hacer caso omiso de la mayor parte de este punto, por desgracia.

  • Otro problema con los MODELOS de regresión para estos datos pueden estar implícitas por su Normal Q-Q de la parcela. De regresión OLS también asume una distribución normal de los residuos. Se ve como el tuyo tienen exceso de , aunque quizá no demasiado. Independientemente, usted podría considerar la posibilidad de o alternativas a los MODELOS de regresión lineal. Algunos sacrificar la potencia, pero es posible que prefiera jugar a lo seguro.

3voto

sd2k9 Puntos 21

(1) no se parece a los datos de la lluvia. Hay una tendencia y una anual componente cíclico.
(2) El residual patrón es un resultado de la utilización de la regresión lineal en lugar de un enfoque de series de tiempo
(3) puede capturar algunos de los patrón cíclico - y por lo tanto tal vez reducir los residuos en el "ruido blanco" (sin patrón) - mediante la introducción de variables ficticias. Ya sea trigonométricas o estándar de los maniquíes. Este enfoque puede ser un reto, en esta instancia, ya que (1) su serie de tiempo es bastante corto (2) no está claro hipótesis (pre-especificado concepto de longitud de ciclo) para la generación de dummies (usualmente se utiliza mes, estación del año o trimestre, etc) (3) trig variables son un poco dolorosas y también asumir que usted tiene algún concepto de la duración de ciclo.
(4) Pero, en general, de salir de la serie de tiempo de aspecto a un lado - estás asumiendo una relación lineal donde, evidentemente, no existe. El residual patrón aquí se ve comúnmente cuando ese supuesto es violado. Normalmente una función no lineal sería suficiente (polinomio de ser el más fácil), pero que no va a ser una gran manera de capturar el carácter cíclico de datos (los datos tienen un tipo específico de la no-linealidad).
(5) El modelo no parece captar la tendencia general a lo largo del tiempo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X