¿Cómo es posible obtener un modelo de regresión lineal buena cuando no existe correlación importante entre la salida y los predictores?

Question

¿Cómo es posible obtener un modelo de regresión lineal buena cuando no existe correlación importante entre la salida y los predictores?

Preguntado el 13 de Septiembre, 2018: Cuando se hizo la pregunta
1378 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

He entrenado a un modelo de regresión lineal, utilizando un conjunto de variables y características. Y el modelo tiene un buen rendimiento. Sin embargo, me he dado cuenta que no hay ninguna variable con una buena correlación con la variable predicha. ¿Cómo es posible?

Preguntado el 13 de Septiembre, 2018 por Jerome Malenfant

Answer 1

3 Respuestas

Answer 2

35voto

AdamSane Puntos 1825

Un par de variables que muestran una alta correlación parcial (la correlación de contabilidad para el impacto de otras variables), pero bajo o incluso cero - marginales de correlación (pares de correlación).

Lo que significa que los pares de correlación entre una respuesta, y algunos predictor, la x puede ser de poco valor en la identificación adecuada de las variables (lineal) "predictivo" valor de entre una colección de otras variables.

Considerar los siguientes datos:

La correlación entre y y x es $0$ . Si me llaman el de los mínimos cuadrados de la línea, es perfectamente horizontal y el $R^2$ es, naturalmente, va a ser $0$ .

Pero cuando se agrega una nueva variable g, lo que indica que los dos grupos de las observaciones vino, x se hace muy informativo:

El $R^2$ de un modelo de regresión lineal con el x y g variables en 1.

Es posible que este tipo de cosas suceden con cada una de las variables en el modelo - que todos tienen pequeños pares de correlación con la respuesta, sin embargo, el modelo con todos ellos no es muy bueno en la predicción de la respuesta.

Lectura adicional:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox

Respondido el 13 de Septiembre, 2018 por AdamSane (1825 Puntos )

Answer 3

2voto

Ray Yang Puntos 84

Yo supongo que usted es el entrenamiento de un modelo de regresión múltiple, en el que tienes varias variables independientes $X_1$ , $X_2$ , ..., regresión de Y. La respuesta simple aquí es un pares de correlación es como correr una underspecified modelo de regresión. Como tal, se omite variables importantes.

Más específicamente, cuando el estado "no hay ninguna variable con una buena correlación con la predicción de la variable", parece que la comprobación de los pares de correlación entre cada variable independiente con la variable dependiente Y. Esto es posible cuando se $X_2$ trae importantes, la nueva información y ayuda a aclarar la confusión entre el $X_1$ e Y. Con que los factores de confusión, sin embargo, no podemos ver un par lineal-sabio correlación entre el $X_1$ y Y. puede que también desee comprobar la relación entre la correlación parcial $\rho_{x_{1},y|x_{2}}$ y de regresión múltiple $y=\beta_1X_1 +\beta_2X_2 + \epsilon$ . De regresión múltiple tienen una más estrecha relación con parciales de correlación de pares de correlación, $\rho_{x_{1},y}$ .

Respondido el 13 de Septiembre, 2018 por Ray Yang (84 Puntos )

Answer 4

0voto

jgradim Puntos 1143

En el vector de términos, si usted tiene un conjunto de vectores $X$ y otro vector y, a continuación, si y es ortogonal (correlación cero) para cada vector en $X$ , entonces también será ortogonal a cualquier combinación lineal de los vectores de $X$ . Sin embargo, si los vectores en $X$ tienen grandes componentes no correlacionados, y la pequeña correlación de los componentes, y los componentes no correlacionados son linealmente dependientes, entonces y puede ser correlacionada con una combinación lineal de $X$ . Es decir, si $X={x_1,x_2 ...}$ y tomamos $o_i$ = componente de x_i ortogonal a s, $p_i$ = componente de x_i paralelo y, luego, si no existe $c_i$ tal que $\sum c_io_i =0$ , $\sum c_ix_i$ será paralela a la de y (es decir, un perfecto predictor). Si $\sum c_io_i =0$ es pequeño, entonces la $\sum c_ix_i$ va a ser un buen predictor. Así que supongamos que tenemos $X_1$ $X_2$ ~ N(0,1) y $E$ ~ N(0,100). Ahora vamos a crear nuevas columnas $X'_1$ $X'_2$ . Para cada fila, tomamos una muestra aleatoria de $E$ , agregar el número a $X_1$ conseguir $X'_1$ , y restar de $X_2$ conseguir $X'_2$ . Ya que cada fila tiene el mismo ejemplo de $E$ se suman y se restan, el $X'_1$ $X'_2$ columnas será perfecto predictores de $Y$ , aunque cada uno tiene sólo una pequeña correlación con el $Y$ individualmente.

Respondido el 13 de Septiembre, 2018 por jgradim (1143 Puntos )

¿Cómo es posible obtener un modelo de regresión lineal buena cuando no existe correlación importante entre la salida y los predictores?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo es posible obtener un modelo de regresión lineal buena cuando no existe correlación importante entre la salida y los predictores?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: