La diferencia en diferencias es lo que se llama una interacción en las estadísticas (como Dimitriy Masterov ya se ha señalado). Se desea probar si el efecto del tiempo es la diferente cuando se puede intervenir en comparación con los que no.
De sus datos es la más natural de modelado como un binomio, es decir, el número de las mejores puntuaciones del total de personas encuestadas en cada área en cada instante de tiempo sigue una distribución binomial, suponiendo que todos los clientes a responder de forma independiente. El estándar método estadístico para el análisis de la interacción con el binomio de datos es ejecutar un binomio de regresión logística.
En el R, el código es la siguiente. Primera entrada de los datos:
> NTopScore <- c(64,82,44,60)
> N <- c(130,118,110,100)
> Area <- factor(c("A","A","B","B"))
> Time <- factor(c(0,1,0,1))
> Proportion <- NTopScore / N
A continuación, ajuste de la regresión logística. En el R esto se hace mediante la ejecución de un modelo lineal generalizado, y diciendo a R que los datos deben ser tratados como un binomio:
> fit <- glm(Proportion~Area*Time, family=binomial, weights=N)
> summary(fit)
Call:
glm(formula = Proportion ~ Area * Time, family = binomial, weights = N)
Deviance Residuals:
[1] 0 0 0 0
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.03077 0.17543 -0.175 0.86076
AreaB -0.37469 0.26202 -1.430 0.15271
Time1 0.85397 0.26599 3.211 0.00132 **
AreaB:Time1 -0.04304 0.38768 -0.111 0.91160
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2.3047e+01 on 3 degrees of freedom
Residual deviance: 7.1054e-15 on 0 degrees of freedom
AIC: 28.523
Number of Fisher Scoring iterations: 3
Vemos que el valor de p para la interacción (diferencia en diferencias) es $P=0.9116$, obviamente no es significativo.
El modelo está montado sobre una log-odds (logit) de escala. El AreaB parámetro muestra que el Área B da una menor proporción de Área en el Tiempo 0. El Tiempo1 parámetro muestra que el Tiempo 1 se da una mayor proporción de Tiempo de 0 en la Zona A. El AreaB:Tiempo1 parámetro es la diferencia en diferencias.
Otra forma de ajuste de la regresión logística es estimar el antes-después de un tiempo el efecto por separado de las áreas a y B.
Esto muestra que el efecto del tiempo es prácticamente idéntico para las dos áreas, independientemente de si usted tuvo una intervención para el no:
> fit <- glm(Proportion~Area+Area:Time, family=binomial, weights=N)
> summary(fit)
Call:
glm(formula = Proportion ~ Area + Area:Time, family = binomial,
weights = N)
Deviance Residuals:
[1] 0 0 0 0
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.03077 0.17543 -0.175 0.86076
AreaB -0.37469 0.26202 -1.430 0.15271
AreaA:Time1 0.85397 0.26599 3.211 0.00132 **
AreaB:Time1 0.81093 0.28204 2.875 0.00404 **
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2.3047e+01 on 3 degrees of freedom
Residual deviance: -5.3291e-15 on 0 degrees of freedom
AIC: 28.523
Number of Fisher Scoring iterations: 3
El efecto del tiempo en el Área a es 0.86397 y que en la Zona B es 0.81093. La diferencia en el tiempo de los efectos de es $0.81093 - 0.86397 = -0.04304$, que es igual a la interacción estimación que se vio en la primera regresión.