4 votos

En mi modelo de regresión logística una de las variables independientes es redundante con el término de interacción. ¿Cómo debo tratarla?

En mi regresión logística la variable dependiente es una variable ficticia y también tengo dos variables independientes. Una de ellas es una variable ficticia y la otra es una variable métrica. También supongo una interacción entre esas dos variables.

Estoy calculando tres regresiones porque quiero explorar la influencia de las variables independientes en la variable dependiente en el periodo 1, en el periodo 2 y en ambos periodos juntos.

Cuando calculo las regresiones para el periodo 2 y para ambos periodos juntos, no hay ningún problema.

Pero cuando calculo la regresión para el periodo 1, SPSS genera una advertencia de que "debido a la redundancia, los grados de libertad de al menos una variable se han reducido". En realidad, no sé lo que significa, pero descubrí que cuando excluyo la variable ficticia independiente de mi modelo para el periodo 1, el término de interacción se incluye en el modelo. Así que ambas variables son de alguna manera idénticas.

Mi pregunta es cómo debo tratar esto en mi trabajo. ¿Debo decir simplemente que para el primer período el término de interacción y la variable ficticia son idénticos? ¿O hay otras consecuencias para la interpretación de mi modelo?

Espero que esto aclare un poco mi pregunta. Gracias de nuevo.

6voto

jldugger Puntos 7490

El software eliminará las variables cuando sean colineales. Entender esta situación equivale a averiguar con más precisión lo que significa.

Hay tres variables independientes involucradas, incluyendo el término constante. Representemos sus valores como el vector constante (columna) $X_1 = (1, 1, \ldots, 1)$ un vector de unos y ceros para la variable ficticia $X_2 = (1, 1, \ldots, 1, 0, 0,\ldots, 0)$ y un tercer vector aparentemente arbitrario $X_3 = (x_1, x_2, \ldots, x_n)$ . (Todas las demás codificaciones ficticias válidas son combinaciones lineales de esta $X_1$ y $X_2$ por lo que no se pierde ninguna generalidad al suponer que se utiliza esta codificación binaria (0-1) en particular). He ordenado los datos de manera que todos los registros en los que el maniquí es $1$ vienen primero; supongamos que hay $k$ de ellos. (Sabemos que $k \ge 1$ y $k \lt n$ ya que, de lo contrario, la variable ficticia sería constante y no podría incluirse en cualquier regresión con un término constante).

La colinealidad de estos tres vectores junto con la $X_2 X_3$ significa (por definición) que existe una relación lineal no trivial

$$0 = \alpha_1 X_1 + \alpha_2 X_2 + \alpha_3 X_3 + \alpha_4 X_2 X_3$$

La primera $k$ Las ecuaciones de esta combinación lineal son

$$0 = \alpha_1 + \alpha_2 + \alpha_3 x_i + \alpha_4 x_i,\quad i=1, 2, \ldots, k.$$

Las ecuaciones restantes son

$$0 = \alpha_1 + \alpha_3 x_i,\quad i = k+1, \ldots, n.$$

El primer grupo de ecuaciones nos informa de que todos los $(\alpha_3 + \alpha_4)x_i$ son iguales a la constante $-(\alpha_1+\alpha_2)$ para $1 \le i \le k$ . El segundo grupo nos informa de que todos los $\alpha_3 x_i$ son iguales a la constante $-\alpha_1$ para $k \lt i \le n$ . Esta primera afirmación no restringe la $x_i$ para $1 \le i \le k$ proporcionado $\alpha_3 + \alpha_4=0$ pero la segunda implica entonces que todo el $x_i$ son iguales entre sí para $i \gt k$ . Porque si no fuera así, entonces necesariamente $\alpha_3 = 0$ , lo que implica que $\alpha_4=0$ o todo el $x_i$ son iguales entre sí para $1\le i \le k$ . Si $\alpha_4=0$ , estos implicarían a su vez que tanto $\alpha_1 + \alpha_2=0$ y $\alpha_1=0$ reduciendo todos los $\alpha_i$ a $0$ pero no fue así (la relación lineal no era trivial).

En palabras, lo que hemos deducido es que la variable continua $X_3$ no presenta ninguna variación entre al menos uno de los dos grupos de valores ficticios.


Para confirmar esta conclusión podemos crear tres ejemplos de estos datos en R . He elegido $k=2$ y $n=4$ : hay dos registros para cada grupo de valores ficticios. En el primer caso, la asignación de valores aleatorios a $X_3$ prácticamente garantiza que habrá variaciones dentro de ambos grupos:

> set.seed(17)
> x2 <- c(1, 1, 0, 0) # The dummy (binary) variable, sorted as in the analysis
> x3 <- rnorm(4)      # The continuous independent variable
> y <- rnorm(4)       # The dependent variable may have *any* values
> lm(y ~ x2*x3)
Coefficients:
(Intercept)           x2           x3        x2:x3  
     0.6763      -0.9218      -1.2728       0.2703 

Se mantienen todas las variables. (Se trata de una regresión OLS, no de una regresión logística, pero eso no importa: ambos métodos se comportan de forma idéntica en cuanto al tratamiento de las variables independientes colineales).

En el segundo caso, fijemos los dos primeros elementos de $X_3$ al mismo valor:

> x3[1] <- x3[2]; lm(y ~ x2*x3)
Coefficients:
(Intercept)           x2           x3        x2:x3  
     0.6763      -0.4745      -1.2728           NA  

La interacción se elimina debido a la colinealidad.

En el tercer caso, fijemos los dos últimos elementos de $X_3$ a un valor común mientras se varían los dos primeros. Para ello, simplemente invierto todos los elementos de $X_3$ :

> x3 <- rev(x3); lm(y ~ x2*x3)
Coefficients:
(Intercept)           x2           x3        x2:x3  
      1.217       -1.756       -1.605           NA  

Una vez más, la interacción se elimina debido a la colinealidad.

Parece que el SPSS se comporta de la misma manera que R en estos casos.

0voto

Dave Puntos 69

Parece que tus variables independientes están correlacionadas. Es probable que cuando una sea 0, la otra sea 1, o que una de las variables tome un solo valor. No estoy familiarizado con el SPSS, pero también podría ser un error en tu código, así que te aconsejaría que lo publicaras para que otros te ayuden.

Además, no debería sorprenderte que el modelo cambie cuando eliminas un término. Sin embargo, eso no significa que el término de interacción sea idéntico al término eliminado. Esto sólo sería el caso cuando toda una variable es cero, toda una variable es uno, o son inversas la una de la otra. Esto se debe a que la interacción var1*var2 es simplemente var1 por var2 con los únicos valores posibles de 1 y 0. La única manera de que la interacción para un registro no sea cero es si las otras dos variables son 1.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X