El modelo lineal generalizado se define en términos de predictor lineal
$$ \eta = \boldsymbol{X} \beta $$
que pasa por el función de enlace $g$ :
$$ g(E(Y\,|\,\boldsymbol{X})) = \eta $$
Modela la relación entre la variable dependiente $Y$ y las variables independientes $\boldsymbol{X} = X_1,X_2,\dots,X_k$ . Más concretamente, se trata de modela una expectativa condicional de $Y$ dado $\boldsymbol{X}$ ,
$$ E(Y\,|\,\boldsymbol{X} ) = \mu = g^{-1}(\eta) $$
por lo que el modelo puede definirse en términos probabilísticos como
$$ Y\,|\,\boldsymbol{X} \sim f(\mu, \sigma^2) $$
donde $f$ es una distribución de probabilidad del familia exponencial . Así que lo primero que hay que notar es que $f$ es no la distribución de $Y$ pero $Y$ lo sigue condicionalmente en $\boldsymbol{X}$ . La elección de esta distribución depende de su conocimiento (lo que pueda suponer) sobre la relación entre $Y$ y $\boldsymbol{X}$ . Así que en cualquier lugar donde se lea sobre la distribución, lo que se quiere decir es la distribución condicional.
-
Si su resultado es continuo y sin límites, entonces la opción más "por defecto" es la distribución gaussiana (también conocida como distribución normal ), es decir, la regresión lineal estándar (a menos que se utiliza otra función de enlace entonces el enlace de identidad por defecto).
-
Si se trata de continua no negativa resultado, entonces podría considerar el Distribución Gamma o Distribución gaussiana inversa .
-
Si su resultado es discreto o, más exactamente, se trata de cuenta (cuántas veces sucede algo en un intervalo de tiempo determinado), entonces la opción más común de la distribución para empezar es Distribución de Poisson . El problema con la distribución de Poisson es que es bastante inflexible en el hecho de que asume que la media es igual a la varianza, si este supuesto no se cumple, puede considerar el uso de cuasi-Poisson familia, o distribución binomial negativa (véase también Definición del parámetro de dispersión para la familia de quasipoisson ).
-
Si su resultado es binario (ceros y unos), proporciones de "éxitos" y "fracasos" (valores entre 0 y 1), o su cuenta puede utilizar Distribución binomial es decir regresión logística modelo. Si hay más de dos categorías, se utilizaría distribución multinomial en regresión multinomial .
Por otro lado, en la práctica, si usted está interesado en construir un modelo predictivo, puede estar interesado en probar algunas distribuciones diferentes, y al final aprender que una de ellas le da resultados más precisos que las otras, incluso si no es la más "apropiada" en términos de consideraciones teóricas (por ejemplo, en teoría debería utilizar Poisson, pero en la práctica la regresión lineal estándar funciona mejor para sus datos).