En este caso, el colapso de sus datos a
X∖Y010S00S011S10S11
donde Sij es el número de instancias para x=iy=ji,j∈{0,1}. Supongamos que hay n observaciones total.
Si queremos ajustar el modelo a pi=g−1(xTiβ)=g−1(β0+β11xi=1) (donde g es nuestra función de enlace) nos vamos a encontrar a ese ˆβ0 es el logit de la proporción de éxitos al xi=0 ˆβ0+ˆβ1 es el logit de la proporción de éxitos al xi=1. En otras palabras,
ˆβ0=g(S01S00+S01)
y
ˆβ0+ˆβ1=g(S11S10+S11).
Let's check this is R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
So the logistic regression coefficients are exactly transformations of proportions coming from the table.
The upshot is that we certainly can analyze this dataset with a logistic regression if we have data coming from a series of Bernoulli random variables, but it turns out to be no different than directly analyzing the resulting contingency table.
I want to comment on why this works from a theoretical perspective. When we're fitting a logistic regression, we are using the model that Yi|xi\asesino∼Berna(pi). We then decide to model the mean as a transformation of a linear predictor in xi, or in symbols pi=g−1(β0+β1xi). In our case we only have two unique values of xi, and therefore there are only two unique values of pi, say p0 and p1. A causa de nuestra independencia hipótesis nos han
∑i:xi=0Yi=S01∼Bin(n0,p0)
y
∑i:xi=1Yi=S11∼Bin(n1,p1).
Nota cómo estamos usando el hecho de que el xi, y en vez de n0n1, no aleatorio: si este no era el caso, entonces estos no necesariamente se binomial.
Esto significa que
S01/n0=S01S00+S01→pp0 y S11/n1=S11S10+S11→pp1.
The key insight here: our Bernoulli RVs are Yi|xi=j∼Berna(pj) while our binomial RVs are Sj1∼Bin(nj,pj), pero ambos tienen la misma probabilidad de éxito. Esa es la razón por la que estas tablas de contingencia proporciones son la estimación de la misma cosa como una observación a nivel de la regresión logística. No se trata de alguna coincidencia con la tabla: es una consecuencia directa de la distribución de la hipótesis que nos han hecho.