20 votos

¿Puedo simplemente eliminar una de las dos variables predictoras que están altamente correlacionadas linealmente?

Usando el coeficiente de correlación de Pearson, tengo varias variables que están altamente correlacionadas ($\rho = 0.978$ y $\rho = 0.989$ para 2 pares de variables que están en mi modelo).

La razón por la que algunas de las variables están altamente correlacionadas es porque se utiliza una variable en el cálculo de otra variable.

Ejemplo:

$B = V / 3000$ y $E = V * D$

$B$ y $E$ tienen $\rho = 0.989$

¿Es posible para mí simplemente "tirar" una de las variables?

7voto

BBlake Puntos 310

B es una transformada lineal de V. E representa una interacción entre V y D. ¿Ha considerado especificar un modelo que sea Y = Intercept + V + D + V:D? Como sugiere @euphoria83, parece probable que haya poca variación en D, por lo que puede que no resuelva su problema; sin embargo, al menos debería dejar claras las contribuciones independientes de V y D. Asegúrese de centrar tanto V como D de antemano.

0voto

Bart van Heukelom Puntos 1192

Si D no es una constante, entonces B y E son efectivamente dos variables diferentes debido a las variaciones en D. La alta correlación indica que D es prácticamente constante a lo largo de los datos de entrenamiento. Si ese es el caso, entonces puede descartar B o E.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X