No, esto no implica que "el modelo está mal' en lo más mínimo. Se dice que debe tener cuidado con la interpretación de raw correlaciones cuando otras variables importantes que existen.
He aquí un conjunto de datos que acabamos de generar (en R). El ejemplo de correlación entre y y x1 es negativo:
print(cor(cbind(y,x1,x2)),d=3)
y x1 x2
y 1.0000 -0.0772 -0.830
x1 -0.0772 1.0000 0.196
x2 -0.8299 0.1961 1.000
Sin embargo, el coeficiente de la regresión es positiva:
summary(lm(y~x1+x2))
... [snip]
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.8231 2.6183 4.516 9.73e-05 ***
x1 0.1203 0.1412 0.852 0.401
x2 -5.8462 0.7201 -8.119 5.94e-09 ***
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
Residual standard error: 4.466 on 29 degrees of freedom
Multiple R-squared: 0.6963, Adjusted R-squared: 0.6753
F-statistic: 33.24 on 2 and 29 DF, p-value: 3.132e-08
Es la 'modelo' mal? No, yo equipado con el mismo modelo que he usado para crear los datos, una que satisface todos los supuestos de la regresión,
$y = 9 + 0.2 x_1 - 5 x_2 + e $ donde $e_i \sim N(0,4^2)$,
o en R: y= 9 + 0.2*x1 -5*x2 + rnorm(length(x2),0,4)
Entonces, ¿cómo sucede esto?
Mirar las dos cosas. En primer lugar, mire el diagrama de $y$ vs $x_1$:
Y vemos a un (muy pequeño, en este caso) correlación negativa.
Ahora mira en la misma parcela, pero con los valores en un determinado valor de $x_2$ ($x_2=4$) marcado en rojo:
... en un dado valor de $x_2$, la relación con $x_1$ está aumentando, no disminuyendo. Lo mismo sucede en el resto de los valores de $x_2$. Para cada valor de $x_2$, la relación entre el $y$ $x_1$ es positivo. Entonces, ¿por qué la correlación es negativa? Debido a $x_1$ $x_2$ están relacionadas.
Si queremos buscar en la correlación y tienen que corresponden a la regresión y la correlación parcial en lugar de la raw de correlación es la cantidad pertinente; aquí está la tabla de correlaciones parciales (usando el paquete ppcor
):
print(pcor(cbind(y,x1,x2))$estimate,d=3)
y x1 x2
y 1.000 0.156 -0.833
x1 0.156 1.000 0.237
x2 -0.833 0.237 1.000
Vemos que la correlación parcial entre el $y$ $x_1$ control para $x_2$ es positivo.
No era de los resultados de la regresión de que había que cuidarse, fue la impresión engañosa de que al mirar el raw de correlación.
Por cierto, también es bastante posible para que así tanto la correlación y el coeficiente de regresión son significativamente diferentes de cero y de signo opuesto ... y todavía no hay nada malo con el modelo.