De su pregunta anterior aprendió que el MLG se describe en términos de distribución de probabilidad, predictor lineal $\eta$ y función de enlace $g$ y se describe como
$$ \begin{align} \eta &= X\beta \\ E(Y|X) &= \mu = g^{-1}(\eta) \end{align} $$
donde $g$ es una función de enlace logit y $Y$ se supone que sigue una distribución Bernoulli
$$ Y_i \sim \mathcal{B}(\mu_i) $$
cada $Y_i$ sigue la distribución Bernoulli con su propio medio $\mu_i$ condicionado a $X$ . Somos no suponiendo que cada $Y_i$ procede de la misma distribución, con la misma media (éste sería el modelo de sólo intercepción $Y_i = g^{-1}(\mu)$ ), sino que todos tienen medios diferentes. Suponemos que $Y_i$ son independiente es decir, no tenemos que preocuparnos de cosas tales como la autocorrelación entre los sucesivos $Y_i$ valores, etc.
En i.i.d. está relacionado con los errores en la regresión lineal (es decir, GLM gaussiano), donde el modelo es
$$ y_i = \beta_0 + \beta_1 x_i + \varepsilon_i = \mu_i + \varepsilon_i $$
donde $\varepsilon_i \sim \mathcal{N}(0, \sigma^2)$ por lo que tenemos i.i.d. ruido alrededor $\mu_i$ . Por eso nos interesa diagnóstico de residuos y prestar atención a la residuales frente a ajustados parcela . Ahora bien, en el caso de GLM como la regresión logística es no es tan sencillo ya que no existe un término de ruido aditivo como en el modelo gaussiano (véase aquí , aquí y aquí ). Seguimos queriendo que los residuos sean "aleatorios" en torno a cero y no queremos ver ninguna tendencia en ellos porque sugerirían que hay algunos efectos que no se tienen en cuenta en el modelo, pero no suponemos que sean normales y/o i.i.d. . Véase también el Sobre la importancia de la hipótesis i.i.d. en el aprendizaje estadístico hilo.
Como nota al margen, obsérvese que incluso podemos abandonar la suposición de que cada $Y_i$ procede del mismo tipo de distribución. Hay modelos (no GLM) que suponen que diferentes $Y_i$ pueden tener diferentes distribuciones con diferentes parámetros, es decir, que sus datos proceden de un mezcla de diferentes distribuciones . En tal caso, también supondríamos que el $Y_i$ son independiente ya que los valores dependientes, procedentes de diferentes distribuciones con diferentes parámetros (es decir, los datos típicos del mundo real) es algo que en la mayoría de los casos sería demasiado complicado de modelizar (a menudo imposible).