29 votos

Interpretación de los términos de interacción en la regresión logit con variables categóricas

Tengo datos de un experimento de encuesta en el que los encuestados fueron asignados al azar a uno de cuatro grupos:

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

Si bien los tres grupos de tratamiento varían ligeramente en cuanto al estímulo aplicado, la principal distinción que me preocupa es entre los grupos de control y de tratamiento. Así que definí una variable ficticia Control :

> summary(df$Control)
     TRUE FALSE 
       59   191 

En la encuesta se pidió a los encuestados (entre otras cosas) que eligieran cuál de las dos cosas preferían:

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

Luego, tras recibir algún estímulo según lo determinado por su grupo de tratamiento (y ninguno si estaban en el grupo de control), se pedía a los encuestados que eligieran entre las mismas dos cosas:

> summary(df$Choice)
  A    B 
149  101 

Quiero saber si el hecho de estar en uno de los tres grupos de tratamiento tuvo un efecto en la elección que los encuestados hicieron en esta última pregunta. Mi hipótesis es que los encuestados que recibieron un tratamiento tienen más probabilidades de elegir A que B .

Dado que estoy trabajando con datos categóricos, he decidido usar una regresión logit (no dude en llamar si cree que es incorrecta). Dado que los encuestados fueron asignados al azar, tengo la impresión de que no debería tener necesariamente que controlar otras variables (por ejemplo, la demografía), por lo que he dejado las de esta pregunta. Mi primer modelo fue simplemente el siguiente:

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

Tengo la impresión de que el hecho de que la interceptación sea estadísticamente significativa no es algo que tenga un significado interpretable. Pensé que quizás debería incluir un término de interacción como el siguiente:

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

Ahora el estatus de los encuestados como en un grupo de tratamiento tiene el efecto esperado. ¿Fue este un conjunto de pasos válidos? ¿Cómo puedo interpretar el término de interacción ControlFALSE:PreferA ? ¿Siguen siendo los otros coeficientes las probabilidades de registro?

0 votos

Mi respuesta es relevante: Mi respuesta aquí es relevante: stats.stackexchange.com/questions/246873/

36voto

RGA Puntos 113

Asumo que PreferA = 1 cuando se prefiere A y 0 en caso contrario y que ControlFALSE = 1 cuando se trata y 0 cuando se controla.

La probabilidad de preferir A cuando una persona no lo hizo previamente y no recibió un tratamiento (ControlFALSE=0 y PreferA=0) es $\exp(3.135)= 23$ es decir, hay 23 personas que prefieren A por cada persona que prefiere B. Por tanto, A es muy popular.

El efecto de treatmeant se refiere a que una persona no prefería A previamente (PreferA=0). En ese caso, las probabilidades de referencia disminuyen en un factor $\exp(-2.309) = .099$ o $(1-.099) \times 100\%=-90.1\%$ cuando se somete al tratamiento. Por lo tanto, la probabilidad de elegir A para aquellos que fueron tratados y no prefirieron A previamente es $.099*23=2.3$ Por lo tanto, hay 2,3 personas que prefieren A por cada persona que prefiere B. Así pues, en este grupo A sigue siendo más popular que B, pero menos que en el grupo no tratado/de referencia.

El efecto de preferir A previamente se refiere a una persona que es un control (ControlFALSE = 0). En ese caso, las probabilidades de referencia disminuyen en un factor $.006$ o $-99.4\%$ cuando alguien prefirió A previamente. (Así que los que prefirieron A previamente son muchos menos probable que lo haga ahora. ¿Tiene sentido?)

El efecto de interacción compara el efecto del tratamiento para las personas que preferían A previamente y las que no. Si una persona prefería A previamente (PreferA =1), entonces el cociente de probabilidades del tratamiento aumenta en un factor $\exp(2.850) = 17.3$ . Por lo tanto, la razón de probabilidades del tratamiento para los que prefirieron A previamente es $17.3 \times .099 = 1.71$ . Alternativamente, este odds ratio del tratamiento para los que prefirieron A previamente podría calcularse como $\exp(2.850 - 2.309)$ .

Así que la constante exponencial te da la línea de base probabilidades los coeficientes exponenciales de los efectos principales le dan el cocientes de probabilidades cuando la otra variable es igual a 0, y el coeficiente exponencial de los términos de interacción indica el relación por la que cambia la proporción de probabilidades .

0 votos

Gracias Maarten, esto es muy útil al igual que tu respuesta a mi otra pregunta relacionada. Sin embargo, me gustaría que me aclararas un punto. Como he aludido en mi otra pregunta, me preocupa la validez estadística de lo que he hecho aquí por el hecho de que ControlFALSE tiene un valor p alto en el primer modelo y uno bastante bajo en el segundo. Aplicando su respuesta a mi otra pregunta a este caso concreto, dijo que esto podría ocurrir si Control tuvo un efecto negativo en un grupo de Prefer y un efecto positivo en el otro.

0 votos

(se quedó sin espacio) ¿Tiene sentido esa interpretación aquí? No sé exactamente cómo aplicarla directamente.

0 votos

El efecto de ControlFALSE en el primer modelo es el efecto del tratamiento para ambos los que prefirieron A previamente y los que no, mientras que el efecto en el segundo modelo es sólo el efecto del tratamiento para aquellos que no preferían A previamente. Si eso está bien o no, no es una cuestión estadística, sino si eso tiene o no sentido sustantivo.

4voto

deepseas Puntos 51

También me pareció útil este documento para interpretar la interacción en la regresión logística:

Chen, J. J. (2003). Comunicación de información compleja: la interpretación de la interacción estadística en el análisis de regresión logística múltiple . Revista americana de salud pública , 93 (9), 1376-1377.

0voto

Zizzencs Puntos 1358

Mi preferencia, cuando intento interpretar las interacciones en la regresión logística, es mirar las probabilidades predichas para cada combinación de variables categóricas. En su caso, esto sería sólo 4 probabilidades:

  1. Prefiero A, control verdadero
  2. Prefiero A, control falso
  3. Prefiero B, control verdadero
  4. Prefiero B, control falso

Cuando tengo variables continuas, suelo mirar el valor predicho en la mediana, el primer y el tercer cuartil.

Aunque esto no directamente llegar a la interpretación de cada coeficiente, encuentro que a menudo me permite (y a mis clientes) ver lo que está pasando de una manera clara.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X