En este caso, el colapso de sus datos a
$$
\begin{array}{c|cc} X \backslash Y & 0 & 1 \\ \hline 0 & S_{00} & S_{01} \\ 1 & S_{10} & S_{11} \end{array}
$$
donde $S_{ij}$ es el número de instancias para $x = i$$y =j$$i,j \in \{0,1\}$. Supongamos que hay $n$ observaciones total.
Si queremos ajustar el modelo a $p_i = g^{-1}(x_i^T \beta) = g^{-1}(\beta_0 + \beta_1 1_{x_i = 1})$ (donde $g$ es nuestra función de enlace) nos vamos a encontrar a ese $\hat \beta_0$ es el logit de la proporción de éxitos al $x_i = 0$ $\hat \beta_0 + \hat \beta_1$ es el logit de la proporción de éxitos al $x_i = 1$. En otras palabras,
$$
\hat \beta_0 = g\left(\frac{S_{01}}{S_{00} + S_{01}}\right)
$$
y
$$
\hat \beta_0 + \hat \beta_1 = g\left(\frac{S_{11}}{S_{10} + S_{11}}\right).
$$
Let's check this is R
.
n <- 54
set.seed(123)
x <- rbinom(n, 1, .4)
y <- rbinom(n, 1, .6)
tbl <- table(x=x,y=y)
mod <- glm(y ~ x, family=binomial())
# all the same at 0.5757576
binomial()$linkinv( mod$coef[1])
mean(y[x == 0])
tbl[1,2] / sum(tbl[1,])
# all the same at 0.5714286
binomial()$linkinv( mod$coef[1] + mod$coef[2])
mean(y[x == 1])
tbl[2,2] / sum(tbl[2,])
So the logistic regression coefficients are exactly transformations of proportions coming from the table.
The upshot is that we certainly can analyze this dataset with a logistic regression if we have data coming from a series of Bernoulli random variables, but it turns out to be no different than directly analyzing the resulting contingency table.
I want to comment on why this works from a theoretical perspective. When we're fitting a logistic regression, we are using the model that $Y_i | x_i \stackrel{\asesino}{\sim} \text{Berna}(p_i)$. We then decide to model the mean as a transformation of a linear predictor in $x_i$, or in symbols $p_i = g^{-1}\left( \beta_0 + \beta_1 x_i\right)$. In our case we only have two unique values of $x_i$, and therefore there are only two unique values of $p_i$, say $p_0$ and $p_1$. A causa de nuestra independencia hipótesis nos han
$$
\sum \limits_{i : x_i = 0} Y_i = S_{01} \sim \text{Bin} \left(n_0, p_0\right)
$$
y
$$
\sum \limits_{i : x_i = 1} Y_i = S_{11} \sim \text{Bin} \left(n_1, p_1\right).
$$
Nota cómo estamos usando el hecho de que el $x_i$, y en vez de $n_0$$n_1$, no aleatorio: si este no era el caso, entonces estos no necesariamente se binomial.
Esto significa que
$$
S_{01} / n_0 = \frac{S_{01}}{S_{00} + S_{01}} \to_p p_0 \hspace{2 mm} \text{ y } \hspace{2 mm} S_{11} / n_1 = \frac{S_{11}}{S_{10} + S_{11}} \to_p p_1.
$$
The key insight here: our Bernoulli RVs are $Y_i | x_i = j \sim \text{Berna}(p_j)$ while our binomial RVs are $S_{j1} \sim \text{Bin}(n_j, p_j)$, pero ambos tienen la misma probabilidad de éxito. Esa es la razón por la que estas tablas de contingencia proporciones son la estimación de la misma cosa como una observación a nivel de la regresión logística. No se trata de alguna coincidencia con la tabla: es una consecuencia directa de la distribución de la hipótesis que nos han hecho.