Processing math: 100%

17 votos

¿Cómo es posible obtener un modelo de regresión lineal buena cuando no existe correlación importante entre la salida y los predictores?

He entrenado a un modelo de regresión lineal, utilizando un conjunto de variables y características. Y el modelo tiene un buen rendimiento. Sin embargo, me he dado cuenta que no hay ninguna variable con una buena correlación con la variable predicha. ¿Cómo es posible?

35voto

AdamSane Puntos 1825

Un par de variables que muestran una alta correlación parcial (la correlación de contabilidad para el impacto de otras variables), pero bajo o incluso cero - marginales de correlación (pares de correlación).

Lo que significa que los pares de correlación entre una respuesta, y algunos predictor, la x puede ser de poco valor en la identificación adecuada de las variables (lineal) "predictivo" valor de entre una colección de otras variables.

Considerar los siguientes datos:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

La correlación entre y y x es 0. Si me llaman el de los mínimos cuadrados de la línea, es perfectamente horizontal y el R2 es, naturalmente, va a ser 0.

Pero cuando se agrega una nueva variable g, lo que indica que los dos grupos de las observaciones vino, x se hace muy informativo:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

El R2 de un modelo de regresión lineal con el x y g variables en 1.

Plot of y vs x showing a lack of pairwise linear relationship but with color indicating the group; within each group the relationship is perfect

Es posible que este tipo de cosas suceden con cada una de las variables en el modelo - que todos tienen pequeños pares de correlación con la respuesta, sin embargo, el modelo con todos ellos no es muy bueno en la predicción de la respuesta.

Lectura adicional:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox

2voto

Ray Yang Puntos 84

Yo supongo que usted es el entrenamiento de un modelo de regresión múltiple, en el que tienes varias variables independientes X1, X2, ..., regresión de Y. La respuesta simple aquí es un pares de correlación es como correr una underspecified modelo de regresión. Como tal, se omite variables importantes.

Más específicamente, cuando el estado "no hay ninguna variable con una buena correlación con la predicción de la variable", parece que la comprobación de los pares de correlación entre cada variable independiente con la variable dependiente Y. Esto es posible cuando se X2 trae importantes, la nueva información y ayuda a aclarar la confusión entre el X1 e Y. Con que los factores de confusión, sin embargo, no podemos ver un par lineal-sabio correlación entre el X1 y Y. puede que también desee comprobar la relación entre la correlación parcial ρx1,y|x2 y de regresión múltiple y=β1X1+β2X2+ϵ. De regresión múltiple tienen una más estrecha relación con parciales de correlación de pares de correlación, ρx1,y.

0voto

jgradim Puntos 1143

En el vector de términos, si usted tiene un conjunto de vectores X y otro vector y, a continuación, si y es ortogonal (correlación cero) para cada vector en X, entonces también será ortogonal a cualquier combinación lineal de los vectores de X. Sin embargo, si los vectores en X tienen grandes componentes no correlacionados, y la pequeña correlación de los componentes, y los componentes no correlacionados son linealmente dependientes, entonces y puede ser correlacionada con una combinación lineal de X. Es decir, si X=x1,x2... y tomamos oi = componente de x_i ortogonal a s, pi = componente de x_i paralelo y, luego, si no existe ci tal que cioi=0, cixi será paralela a la de y (es decir, un perfecto predictor). Si cioi=0 es pequeño, entonces la cixi va a ser un buen predictor. Así que supongamos que tenemos X1 X2 ~ N(0,1) y E ~ N(0,100). Ahora vamos a crear nuevas columnas X1X2. Para cada fila, tomamos una muestra aleatoria de E, agregar el número a X1 conseguir X1, y restar de X2 conseguir X2. Ya que cada fila tiene el mismo ejemplo de E se suman y se restan, el X1 X2 columnas será perfecto predictores de Y, aunque cada uno tiene sólo una pequeña correlación con el Y individualmente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X