Especulemos con la sencilla situación en la que no hay información de covariable en sus datos. Digamos que sólo tiene observaciones $Y_1, Y_2, \ldots, Y_n \in \mathbb{R}$ .
Si está utilizando una distribución normal para modelar sus datos, probablemente escribiría que
$Y_i \sim \mathcal{N}(\mu, \sigma^2)$ ,
y luego tratar de estimar $\mu$ y $\sigma$ , tal vez mediante una estimación de máxima verosimilitud.
Pero digamos que sus datos son datos de recuento y, por tanto, no se distribuyen normalmente. En este caso ni siquiera es continua, por lo que puede utilizar la distribución de Poisson en su lugar:
$Y_i \sim Poisson(\lambda)$ .
Sin embargo, ¡sólo tiene un parámetro aquí! El único parámetro $\lambda$ determina tanto la media como la varianza mediante $\mathbb{E}[Y_i] = \lambda$ y $Var[Y_i] = \lambda$ . Esto también ocurre cuando se utiliza la distribución Bernoulli o binomial. Pero puede tener una varianza mayor o menor en sus datos, posiblemente porque las observaciones no son verdaderamente iid o la distribución que eligió no era lo suficientemente realista.
Así que la gente añade el parámetro de dispersión para obtener un grado de libertad adicional en la modelización de la media y la varianza simultáneamente. Supongo que cualquier libro de texto sobre el MLG le dará una explicación más detallada y matemática sobre lo que es, pero la motivación, creo, es bastante simple como esto.