Tengo datos de un experimento de encuesta en el que los encuestados fueron asignados al azar a uno de cuatro grupos:
> summary(df$Group)
Control Treatment1 Treatment2 Treatment3
59 63 62 66
Si bien los tres grupos de tratamiento varían ligeramente en cuanto al estímulo aplicado, la principal distinción que me preocupa es entre los grupos de control y de tratamiento. Así que definí una variable ficticia Control
:
> summary(df$Control)
TRUE FALSE
59 191
En la encuesta se pidió a los encuestados (entre otras cosas) que eligieran cuál de las dos cosas preferían:
> summary(df$Prefer)
A B NA's
152 93 5
Luego, tras recibir algún estímulo según lo determinado por su grupo de tratamiento (y ninguno si estaban en el grupo de control), se pedía a los encuestados que eligieran entre las mismas dos cosas:
> summary(df$Choice)
A B
149 101
Quiero saber si el hecho de estar en uno de los tres grupos de tratamiento tuvo un efecto en la elección que los encuestados hicieron en esta última pregunta. Mi hipótesis es que los encuestados que recibieron un tratamiento tienen más probabilidades de elegir A
que B
.
Dado que estoy trabajando con datos categóricos, he decidido usar una regresión logit (no dude en llamar si cree que es incorrecta). Dado que los encuestados fueron asignados al azar, tengo la impresión de que no debería tener necesariamente que controlar otras variables (por ejemplo, la demografía), por lo que he dejado las de esta pregunta. Mi primer modelo fue simplemente el siguiente:
> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)
Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8366 -0.5850 -0.5850 0.7663 1.9235
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.4819 0.3829 3.871 0.000109 ***
ControlFALSE -0.4068 0.3760 -1.082 0.279224
PreferA -2.7538 0.3269 -8.424 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 239.69 on 242 degrees of freedom
(5 observations deleted due to missingness)
AIC: 245.69
Number of Fisher Scoring iterations: 4
Tengo la impresión de que el hecho de que la interceptación sea estadísticamente significativa no es algo que tenga un significado interpretable. Pensé que quizás debería incluir un término de interacción como el siguiente:
> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)
Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"),
data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5211 -0.6424 -0.5003 0.8519 2.0688
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.135 1.021 3.070 0.00214 **
ControlFALSE -2.309 1.054 -2.190 0.02853 *
PreferA -5.150 1.152 -4.472 7.75e-06 ***
ControlFALSE:PreferA 2.850 1.204 2.367 0.01795 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 328.95 on 244 degrees of freedom
Residual deviance: 231.27 on 241 degrees of freedom
(5 observations deleted due to missingness)
AIC: 239.27
Number of Fisher Scoring iterations: 5
Ahora el estatus de los encuestados como en un grupo de tratamiento tiene el efecto esperado. ¿Fue este un conjunto de pasos válidos? ¿Cómo puedo interpretar el término de interacción ControlFALSE:PreferA
? ¿Siguen siendo los otros coeficientes las probabilidades de registro?
0 votos
Mi respuesta es relevante: Mi respuesta aquí es relevante: stats.stackexchange.com/questions/246873/