El software eliminará las variables cuando sean colineales. Entender esta situación equivale a averiguar con más precisión lo que significa.
Hay tres variables independientes involucradas, incluyendo el término constante. Representemos sus valores como el vector constante (columna) $X_1 = (1, 1, \ldots, 1)$ un vector de unos y ceros para la variable ficticia $X_2 = (1, 1, \ldots, 1, 0, 0,\ldots, 0)$ y un tercer vector aparentemente arbitrario $X_3 = (x_1, x_2, \ldots, x_n)$ . (Todas las demás codificaciones ficticias válidas son combinaciones lineales de esta $X_1$ y $X_2$ por lo que no se pierde ninguna generalidad al suponer que se utiliza esta codificación binaria (0-1) en particular). He ordenado los datos de manera que todos los registros en los que el maniquí es $1$ vienen primero; supongamos que hay $k$ de ellos. (Sabemos que $k \ge 1$ y $k \lt n$ ya que, de lo contrario, la variable ficticia sería constante y no podría incluirse en cualquier regresión con un término constante).
La colinealidad de estos tres vectores junto con la $X_2 X_3$ significa (por definición) que existe una relación lineal no trivial
$$0 = \alpha_1 X_1 + \alpha_2 X_2 + \alpha_3 X_3 + \alpha_4 X_2 X_3$$
La primera $k$ Las ecuaciones de esta combinación lineal son
$$0 = \alpha_1 + \alpha_2 + \alpha_3 x_i + \alpha_4 x_i,\quad i=1, 2, \ldots, k.$$
Las ecuaciones restantes son
$$0 = \alpha_1 + \alpha_3 x_i,\quad i = k+1, \ldots, n.$$
El primer grupo de ecuaciones nos informa de que todos los $(\alpha_3 + \alpha_4)x_i$ son iguales a la constante $-(\alpha_1+\alpha_2)$ para $1 \le i \le k$ . El segundo grupo nos informa de que todos los $\alpha_3 x_i$ son iguales a la constante $-\alpha_1$ para $k \lt i \le n$ . Esta primera afirmación no restringe la $x_i$ para $1 \le i \le k$ proporcionado $\alpha_3 + \alpha_4=0$ pero la segunda implica entonces que todo el $x_i$ son iguales entre sí para $i \gt k$ . Porque si no fuera así, entonces necesariamente $\alpha_3 = 0$ , lo que implica que $\alpha_4=0$ o todo el $x_i$ son iguales entre sí para $1\le i \le k$ . Si $\alpha_4=0$ , estos implicarían a su vez que tanto $\alpha_1 + \alpha_2=0$ y $\alpha_1=0$ reduciendo todos los $\alpha_i$ a $0$ pero no fue así (la relación lineal no era trivial).
En palabras, lo que hemos deducido es que la variable continua $X_3$ no presenta ninguna variación entre al menos uno de los dos grupos de valores ficticios.
Para confirmar esta conclusión podemos crear tres ejemplos de estos datos en R
. He elegido $k=2$ y $n=4$ : hay dos registros para cada grupo de valores ficticios. En el primer caso, la asignación de valores aleatorios a $X_3$ prácticamente garantiza que habrá variaciones dentro de ambos grupos:
> set.seed(17)
> x2 <- c(1, 1, 0, 0) # The dummy (binary) variable, sorted as in the analysis
> x3 <- rnorm(4) # The continuous independent variable
> y <- rnorm(4) # The dependent variable may have *any* values
> lm(y ~ x2*x3)
Coefficients:
(Intercept) x2 x3 x2:x3
0.6763 -0.9218 -1.2728 0.2703
Se mantienen todas las variables. (Se trata de una regresión OLS, no de una regresión logística, pero eso no importa: ambos métodos se comportan de forma idéntica en cuanto al tratamiento de las variables independientes colineales).
En el segundo caso, fijemos los dos primeros elementos de $X_3$ al mismo valor:
> x3[1] <- x3[2]; lm(y ~ x2*x3)
Coefficients:
(Intercept) x2 x3 x2:x3
0.6763 -0.4745 -1.2728 NA
La interacción se elimina debido a la colinealidad.
En el tercer caso, fijemos los dos últimos elementos de $X_3$ a un valor común mientras se varían los dos primeros. Para ello, simplemente invierto todos los elementos de $X_3$ :
> x3 <- rev(x3); lm(y ~ x2*x3)
Coefficients:
(Intercept) x2 x3 x2:x3
1.217 -1.756 -1.605 NA
Una vez más, la interacción se elimina debido a la colinealidad.
Parece que el SPSS se comporta de la misma manera que R
en estos casos.