11 votos

Las líneas diagonales de los residuos vs valores ajustados para la trama de regresión múltiple

Estoy observando la extraña patrones de los residuos para mis datos: enter image description here

[EDITAR] Aquí son la regresión parcial de las parcelas para las dos variables:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] se ha Añadido el PP Parcela http://i.imgur.com/pCKFA.png

La distribución parece estar haciendo muy bien (ver abajo), pero no tengo ni idea de donde esta recta podría venir de. Alguna idea? enter image description here

[ACTUALIZACIÓN 31.07]

Resulta que tenían razón, he tenido casos en donde el retweet en el recuento de hecho 0 y estas ~ 15 casos resultó en esos extraños residual de los patrones.

Los residuos se ven mucho mejor ahora: http://i.imgur.com/XGas9.png

También he incluido el parcial regresiones con un loess de la línea. http://i.imgur.com/Jcr2M.pnghttp://i.imgur.com/eb376.png

25voto

Uri Puntos 111

Parece que en algunas de sus subrango de su variable dependiente es constante o es exactamente linealmente dependiente de la variable predictora(s). Vamos a tener dos correlación de variables, X e y (Y es dependiente). El diagrama de dispersión es de la izquierda.

enter image description here

Vamos a volver, como ejemplo, en la primera ("constante") posibilidad. Recodificar todos los valores de Y de menor a -0.5 a un único valor -1 (ver en la imagen del centro). La regresión de Y sobre X y de la trama de los residuos de dispersión, es decir, rotar la imagen del centro, de modo que la predicción de la línea es horizontal ahora. Hace parecerse a los de tu foto?

4voto

No es de extrañar que no ver el patrón en el histograma, el extraño patrón se extiende un poco de el rango del histograma y representa sólo un par de puntos de datos en cada bin. Usted realmente necesita para saber que puntos de datos de quienes son y les miró. Usted podría utilizar los valores previstos y de los residuos a encontrar bastante fácil. Una vez que usted encuentre los valores de empezar a investigar por qué los queridos podrían ser especial.

Habiendo dicho eso, este patrón particular sólo es especial porque es largo. Si usted mira cuidadosamente en los residuos de la trama y su cuantil de la parcela verás que se repite sino que se trata de pequeñas secuencias. Tal vez lo que realmente sólo es una anomalía. O tal vez lo que realmente es un patrón que se repite. Pero, vas a tener que buscar donde está en los datos en bruto y lo examina con el fin de tener la esperanza de entender del todo.

Para darle un poco de ayuda, el cuantil-cuantil de la trama sugiere usted tiene un montón de idéntica residuos. Es posible que podría ser un error de codificación. Puedo generar algo similar en R con...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

Nota: el plano de piso de dos puntos en la línea. Sin embargo, parece más complejo que eso, porque hay una implicación de que los residuos son idénticos que viene a través de una serie de predictores.

3voto

Sean Hanley Puntos 2428

Parece que estás usando R. Si es así, tenga en cuenta que usted puede identificar los puntos en un diagrama de dispersión utilizando ?identificar. Creo que hay varias cosas que están pasando aquí. En primer lugar, usted tiene una muy influyente punto en la gráfica de LN_RT_vol_in ~ LN_AT_vol_in (el resaltado) (.2, 1.5). Esto es muy probable que sea el residual estandarizado que se trata de -3.7. El efecto de ese punto será para aplanar la línea de regresión, se inclina más horizontales que las bruscamente hacia arriba de la línea, de lo contrario, habría conseguido. Un efecto de esto es que todos los residuos serán giradas hacia la izquierda respecto a donde habrían sido localizados dentro de la residual ~ predicted parcela (al menos cuando se piensa en términos de que la covariable y haciendo caso omiso de la otra).

Sin embargo, la aparente línea recta de los residuos que se vea todavía estaría allí, tal como existen en algún lugar en las 3 dimensiones de la nube de los datos originales. Que puede ser difícil de encontrar en cualquiera de los bordes de las parcelas. Usted puede utilizar el identificar() la función de ayudar, y usted puede también utilizar la rgl paquete para crear una dinámica en 3D diagrama de dispersión que puede girar libremente con el ratón. Sin embargo, tenga en cuenta que la línea recta residuos se encuentran todos por debajo de los 0 en su valor de predicción, y por debajo de 0 residuos (es decir, están por debajo de la regresión ajustada de la línea); que le da una gran pista de donde buscar. Mirando de nuevo a su parcela de LN_RT_vol_in ~ LN_AT_vol_in, creo que puede ver. Hay una bastante recta conjunto de puntos corriendo en diagonal hacia abajo y a la izquierda de sobre (-.01, -1.00) en el borde inferior de la nube de puntos en esa región. Sospecho que esos son los puntos en cuestión.

En otras palabras, los residuos de ver de esa manera porque son de esa manera en algún lugar dentro del espacio de datos. En esencia, esto es lo que @ttnphns es lo que sugiere, pero no creo que es una constante en cualquiera de las dimensiones originales, es una constante en una dimensión en un ángulo a su original ejes. Además, estoy de acuerdo con @MichaelChernick que esta aparente rectitud en el residual de la parcela probablemente es inofensivo, pero que sus datos no son realmente muy normal. Son algo normal-ish, sin embargo, y parece que tienes un buen número de datos, por lo que la CLT puede cubrirlo, pero puede que desee bootstrap en caso de. Por último, me preocuparía que 'outlier' es la conducción de sus resultados; un sólido enfoque es probablemente lo merece.

1voto

mat_geek Puntos 1367

No quiero decir necesariamente que el histograma está bien. Visualmente la superposición de las mejores de ajuste normal en un histograma puede ser engañosa y su histogrsm podrían ser sensibles a la elección de la papelera de ancho. El diagrama de probabilidad normal parece indicar una gran desviación de la normal e incluso mirando el histograma parece a mi ojo para ser leve asimetría (aumento de la frecuencia en [0,+0.5] bin en comparación con el [-0.5,0] bin) y severa de la curtosis ( demasiado grande de una frecuencia en los intervalos [-4,-3.5] y [2.5, 3]).

Con respecto al modelo que vea que puede ser muy selectivos a explorar a través del diagrama de dispersión. Parece como si usted cazar algunos más se pueden encontrar dos o tres líneas más casi paralela a la que usted eligió. Creo que usted está leyendo demasiado en esto. Pero el nonnormality es una preocupación real. Tiene un enorme valor atípico con un diferencial de casi -4. Hacer estos residuos provienen de un mínimo de cuadrados? Estoy de acuerdo en que podría ser esclarecedor para buscar en los armarios de la línea en un diagrama de dispersión de los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X