7 votos

Multicolinealidad entre ln(x) y ln(x)^2

Estoy ejecutando un modelo binómico negativo y una de mis variables de predicción es una variable de conteo. Como esta variable estaba muy sesgada, decidí transformarla en un logaritmo.

Sin embargo, se formula la hipótesis de que el efecto de esta variable no es lineal. Sin embargo, tan pronto como incluyo el término cuadrado en mi modelo, obtengo VIF de estas dos variables que son >20, mientras que todos los demás predictores se mantienen estables en VIF entre 1 y 5.

A mi entender, la relación no debería ser lineal y, por lo tanto, no debería surgir una relación multicolonial.

¿Alguien puede explicar la causa de la multicolinealidad y dar posibles soluciones a este problema?

13voto

jldugger Puntos 7490

Excepto por cuentas muy pequeñas, $ \log (x)^2$ es esencialmente una función lineal de $ \log (x)$ :

Figure showing plots and linear fits

Las líneas de color son los mínimos cuadrados que se ajustan a $ \log (x)^2$ vs $ \log (x)$ para varios rangos de conteo $x$ . Son extremadamente buenos una vez $x$ excede $10$ (y sigue siendo terriblemente bueno incluso cuando $x \gt 4$ más o menos).

La introducción del cuadrado de una variable a veces se utiliza para probar la bondad del ajuste, pero (en mi experiencia) rara vez es una buena elección como variable explicativa. Para dar cuenta de una respuesta no lineal, considere estas opciones:

  • Estudia la naturaleza de la no linealidad. Selecciona las variables apropiadas y/o la transformación para capturarla.

  • Mantén el conteo en el modelo. Todavía habrá colinealidad para los recuentos más grandes, así que considera la creación de un par de variables ortogonales de $x$ y $ \log (x)$ para lograr un ajuste numéricamente estable.

  • Usar las ranuras de $x$ (y/o $ \log (x)$ ) para modelar la no linealidad.

  • Ignora el problema por completo. Si tiene suficientes datos, un gran VIF puede ser intrascendente. A menos que su propósito sea obtener estimaciones precisas de coeficientes (lo que su voluntad de transformar sugiere que no es el caso), entonces la colinealidad apenas importa de todos modos.

1voto

shyam Puntos 4133

La fuente de la colinealidad es que $f(x) = x^2$ . Una forma de reducir la correlación entre $x$ y $x^2$ es para centrar $x$ . Deje que $z=x-E(x)$ y calcular $z^2$ . Debido a que el extremo inferior de la escala tiene ahora grandes valores absolutos, su cuadrado se hace grande, haciendo que la relación entre $z$ y $z^2$ menos lineal que la que hay entre $x$ y $x^2$ . Este consejo viene del Factor de Análisis: http://www.theanalysisfactor.com/centering-for-multicollinearity-between-main-effects-and-interaction-terms/

Nota : Al interpretar los efectos, por favor recuerde que usted escaló la covariable. Además, algunos investigadores pueden advertir contra el escalamiento porque entonces los resultados de su modelo dependen de los datos. Aquí hay una perspectiva de Andrew Gelman sobre ese tema: http://andrewgelman.com/2009/07/11/when_to_standar/

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X