Considere un caso en su variable de respuesta es un conjunto de "éxitos" y "fracasos" (también representado como 'sí' y el 'nos', $1$s y $0$s, etc.). Si esto fuera verdad, no puede ser el caso de que su error plazo es normalmente distribuida. En su lugar, el término de error sería de Bernoulli, por definición. Por lo tanto, uno de los supuestos en los que se alude a la violación. Otra suposición es que de homoskedasticity, pero esto sería violado así, porque la varianza es una función de la media. Así que podemos ver que el (OLS) GLM es inadecuado para este caso.
Tenga en cuenta que, para un típico modelo de regresión lineal, lo que se predicción (es decir, $\hat y_i$)$\mu_i$, la media de la condicional de la distribución normal de la respuesta en ese punto exacto donde $X=x_i$. Lo que necesitamos en este caso es predecir $\hat\pi_i$, la probabilidad de "éxito" en ese lugar. Así que pensamos en nuestra respuesta a la distribución de Bernoulli, y estamos prediciendo el parámetro que controla el comportamiento de la distribución. Hay una complicación importante aquí, sin embargo. En concreto, habrá algunos valores de $\bf X$ que, en combinación con sus estimaciones $\boldsymbol\beta$ el rendimiento de los valores de la predicción de $\hat y_i$ (i.e, $\hat\pi_i$) que va a ser $<0$ o $>1$. Pero esto es imposible, debido a que el rango de $\pi$$(0,~1)$. Por lo tanto, tenemos que transformar el parámetro de $\pi$, de modo que puede extenderse a $(-\infty,~\infty)$, así como el lado derecho de su GLiM puede. Por lo tanto, se necesita una función de enlace.
En este punto, se han estipulado una respuesta de distribución (Bernoulli) y una función de enlace (tal vez el logit de la transformación). Ya tenemos una parte estructural de nuestro modelo: $\bf X \boldsymbol \beta$. Así que ahora tenemos todas las piezas necesarias de nuestro modelo. Este es ahora el modelo lineal generalizado, porque nos han "relajado" que las suposiciones acerca de nuestra variable de respuesta y los errores.
Para responder a sus preguntas específicas más directamente, el modelo lineal generalizado relaja suposiciones acerca de $\bf Y$ $\bf U$ por la postulación de una respuesta de distribución (en la exponencial de la familia) y una función de enlace a la que se asigna el parámetro en cuestión para el intervalo de $(-\infty,~\infty)$.
Para más información sobre este tema, puede ayudar a leer mi respuesta a esta pregunta: la Diferencia entre los modelos logit y probit.