4 votos

Es el modelo de malo si un coeficiente de cambios de signo de menos en la tabla de correlación para plus en OLS?

Tal vez es una pregunta muy básica, pero uno que me tiene confundido. Por ejemplo, en una tabla de correlación de la relación entre A y el DV (B) .351, pero -.150 en el modelo OLS (donde se han añadido C, D y E variables), ¿esto qué significa? En otras palabras: si el C a E variables no sólo de cambiar el coeficiente de A , pero incluso hacer que se vaya de negativo a positivo, hace que indican un indeseable efecto de la interacción entre las variables utilizadas en el OLS? He estado revisando el VIF de las puntuaciones para este, pero basada en los bajos de VIF, no tengo ninguna razón para temer a la multicolinealidad. Lo que (si acaso) que está mal?

Estoy tratando de envolver mi cabeza alrededor de esta construcción de un sencillo ejemplo para que me entiendan. Decir A es una persona de la altura y el B es la distancia que esta persona saltos. Probablemente hay una correlación positiva (mayor significa más las piernas, significa más tiempo en la distancia de salto). Qué variables C a E para compensar esta persona esta altura, incluso en la medida en que esta persona esta altura está trabajando en contra de él cuando salta (haciendo que el coeficiente entre A y DV B en el OLS negativo)?

7voto

AdamSane Puntos 1825

No, esto no implica que "el modelo está mal' en lo más mínimo. Se dice que debe tener cuidado con la interpretación de raw correlaciones cuando otras variables importantes que existen.

He aquí un conjunto de datos que acabamos de generar (en R). El ejemplo de correlación entre y y x1 es negativo:

 print(cor(cbind(y,x1,x2)),d=3)
         y      x1     x2
y   1.0000 -0.0772 -0.830
x1 -0.0772  1.0000  0.196
x2 -0.8299  0.1961  1.000

Sin embargo, el coeficiente de la regresión es positiva:

 summary(lm(y~x1+x2))

... [snip]

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  11.8231     2.6183   4.516 9.73e-05 ***
x1            0.1203     0.1412   0.852    0.401    
x2           -5.8462     0.7201  -8.119 5.94e-09 ***
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

Residual standard error: 4.466 on 29 degrees of freedom
Multiple R-squared:  0.6963,    Adjusted R-squared:  0.6753 
F-statistic: 33.24 on 2 and 29 DF,  p-value: 3.132e-08

Es la 'modelo' mal? No, yo equipado con el mismo modelo que he usado para crear los datos, una que satisface todos los supuestos de la regresión,

$y = 9 + 0.2 x_1 - 5 x_2 + e $ donde $e_i \sim N(0,4^2)$,

o en R: y= 9 + 0.2*x1 -5*x2 + rnorm(length(x2),0,4)

Entonces, ¿cómo sucede esto?

Mirar las dos cosas. En primer lugar, mire el diagrama de $y$ vs $x_1$:

y vs x1

Y vemos a un (muy pequeño, en este caso) correlación negativa.

Ahora mira en la misma parcela, pero con los valores en un determinado valor de $x_2$ ($x_2=4$) marcado en rojo:

y vs x1, x2=4 marked in red

... en un dado valor de $x_2$, la relación con $x_1$ está aumentando, no disminuyendo. Lo mismo sucede en el resto de los valores de $x_2$. Para cada valor de $x_2$, la relación entre el $y$ $x_1$ es positivo. Entonces, ¿por qué la correlación es negativa? Debido a $x_1$ $x_2$ están relacionadas.

Si queremos buscar en la correlación y tienen que corresponden a la regresión y la correlación parcial en lugar de la raw de correlación es la cantidad pertinente; aquí está la tabla de correlaciones parciales (usando el paquete ppcor):

 print(pcor(cbind(y,x1,x2))$estimate,d=3)
        y    x1     x2
y   1.000 0.156 -0.833
x1  0.156 1.000  0.237
x2 -0.833 0.237  1.000

Vemos que la correlación parcial entre el $y$ $x_1$ control para $x_2$ es positivo.

No era de los resultados de la regresión de que había que cuidarse, fue la impresión engañosa de que al mirar el raw de correlación.

Por cierto, también es bastante posible para que así tanto la correlación y el coeficiente de regresión son significativamente diferentes de cero y de signo opuesto ... y todavía no hay nada malo con el modelo.

4voto

Eero Puntos 1612

Además de buscar en los coeficientes, usted también debe mirar a sus intervalos de confianza. Si el intervalo es muy amplio, entonces un cambio de $0.351$ $-0.150$podría ser explicada por el azar. Incluso si los intervalos son estrechas (y mostrar diferencia significativa) un cambio en la señal no es infrecuente.

Recuerde que la interpretación de un único pendiente es el efecto del cambio de la variable, mientras que la celebración de todo los demás constante. Incluso con correlación moderada (por debajo de los niveles que podrían causar un VIF a ser interesante), esto puede ser un poco razonable suposición de que no ayuda a la interpretación y puede conducir a la revocación. Piense en lo que significa aumentar alguien de la altura, mientras que el mantenimiento de un peso constante.

Otro ejemplo. $Y$ es el valor de todas las monedas en una persona de bolsillo, $X_1$ es el número total de monedas, $X_2$ es el número de monedas en el bolsillo que no son cuartas partes (o el máximo común denominación de la moneda para la región). Esperamos correlación positiva entre todas las 3 variables, pero si mantenemos $X_1$ constante y aumentar el $X_2$ $Y$ disminuiría.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X