3 votos

¿Cuál es el nivel de referencia en una interacción factor por factor?

¿Cuál es el nivel de referencia para un término de interacción factor por factor en una regresión múltiple?

Considere este ejemplo de Fox 2003 . En la regresión que sigue, estas dos variables son categóricas: year={1997,..,2002} y colour={black,white} .

require(effects)
require(lmtest)
Arrests$year <- as.factor(Arrests$year)
arrests.mod <- glm(released ~ employed + citizen + checks
                         + colour*year + colour*age,
                         family=binomial, data=Arrests)

Lo que produce:

> coeftest(arrests.mod)

z test of coefficients:

                       Estimate Std. Error  z value  Pr(>|z|)    
(Intercept)           0.3444334  0.3100749   1.1108 0.2666514    
employedYes           0.7350645  0.0847701   8.6713 < 2.2e-16 ***
citizenYes            0.5859841  0.1137717   5.1505 2.598e-07 ***
checks               -0.3666425  0.0260322 -14.0842 < 2.2e-16 ***
colourWhite           1.2125167  0.3497751   3.4666 0.0005272 ***
year1998             -0.4311794  0.2603589  -1.6561 0.0977023 .  
year1999             -0.0944343  0.2615447  -0.3611 0.7180519    
year2000             -0.0108975  0.2592073  -0.0420 0.9664655    
year2001              0.2430630  0.2630151   0.9241 0.3554129    
year2002              0.2129549  0.3532786   0.6028 0.5466444    
age                   0.0287279  0.0086191   3.3330 0.0008590 ***
colourWhite:year1998  0.6519565  0.3134898   2.0797 0.0375555 *  
colourWhite:year1999  0.1559504  0.3070430   0.5079 0.6115161    
colourWhite:year2000  0.2957537  0.3062034   0.9659 0.3341076    
colourWhite:year2001 -0.3805413  0.3040538  -1.2516 0.2107305    
colourWhite:year2002 -0.6173178  0.4192551  -1.4724 0.1409086    
colourWhite:age      -0.0373729  0.0102003  -3.6639 0.0002484 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

En la tabla anterior, me interesa identificar el nivel de base para el término de interacción factor por factor... Por ejemplo, el grupo colourWhite:year1998 se compara con qué otro grupo?

Es colourWhite:year1997 el nivel de referencia, o quizás colourBlack:year1997 ?

2voto

David J. Sokol Puntos 1730

La categoría de referencia es la combinación de primero niveles de los factores en el modelo:

> with(Arrests, levels(colour))
[1] "Black" "White"
> with(Arrests, levels(year))
[1] "1997" "1998" "1999" "2000" "2001" "2002"

Así que el Intercept es para colourBlack:year1997 y los contrastes por defecto especifican las diferencias de medias con es clase y las otras combinaciones de factores que intervienen en la especificación de su modelo, por lo que colourWhite refleja la diferencia en $E(y)$ para la combinación colourWhite:year1997 . puedes pensar en esto realmente como

colourBlack:year1997 + colourWhite

como colourWhite representa la diferencia en 1997 para el color White .

Los otros términos de interacción en el modelo son las diferencias adicionales para el color White en los otros años, mientras que el year Los efectos principales son las diferencias en $E(y)$ entre el año de referencia y los demás años para colour Negro`.

Mirar la matriz del modelo puede ayudar a menudo a descifrar estas cosas:

> head(model.matrix(~ colour * year + colour * age, data = Arrests))
  (Intercept) colourWhite year1998 year1999 year2000 year2001 year2002 age
1           1           1        0        0        0        0        1  21
2           1           0        0        1        0        0        0  17
3           1           1        0        0        1        0        0  24
4           1           0        0        0        1        0        0  46
5           1           0        0        1        0        0        0  27
6           1           0        1        0        0        0        0  16
  colourWhite:year1998 colourWhite:year1999 colourWhite:year2000
1                    0                    0                    0
2                    0                    0                    0
3                    0                    0                    1
4                    0                    0                    0
5                    0                    0                    0
6                    0                    0                    0
  colourWhite:year2001 colourWhite:year2002 colourWhite:age
1                    0                    1              21
2                    0                    0               0
3                    0                    0              24
4                    0                    0               0
5                    0                    0               0
6                    0                    0               0

En las primeras filas de los datos se observa cómo las variables ficticias indican las distintas agrupaciones indicadas por las combinaciones de factores y sus interacciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X