Para mí, la unificación de la regresión logística, lineal, de Poisson, etc., siempre ha sido en términos de especificación de la media y la varianza en el marco del modelo lineal generalizado. Empezamos especificando una distribución de probabilidad para nuestros datos, normal para datos continuos, Bernoulli para dicotómicos, Poisson para recuentos, etc... Luego especificamos una función de enlace que describe cómo se relaciona la media con el predictor lineal:
$g(\mu_i) = \alpha + x_i^T\beta$
Para la regresión lineal, $g(\mu_i) = \mu_i$ .
Para la regresión logística, $g(\mu_i) = \log(\frac{\mu_i}{1-\mu_i})$ .
Para la regresión de Poisson, $g(\mu_i) = \log(\mu_i)$ .
Lo único que se podría considerar en cuanto a la redacción de un término de error sería declarar:
$y_i = g^{-1}(\alpha+x_i^T\beta) + e_i$ donde $E(e_i) = 0$ y $Var(e_i) = \sigma^2(\mu_i)$ . Por ejemplo, para la regresión logística, $\sigma^2(\mu_i) = \mu_i(1-\mu_i) = g^{-1}(\alpha+x_i^T\beta)(1-g^{-1}(\alpha+x_i^T\beta))$ . Pero, no se puede afirmar explícitamente que $e_i$ tiene una distribución de Bernoulli como se ha mencionado anteriormente.
Tenga en cuenta, sin embargo, que los modelos lineales generalizados básicos sólo suponen una estructura para la media y la varianza de la distribución. Se puede demostrar que las ecuaciones de estimación y la matriz hessiana sólo dependen de la media y la varianza que se asuma en el modelo. Por lo tanto, no es necesario preocuparse por la distribución de $e_i$ para este modelo porque los momentos de orden superior no juegan un papel en la estimación de los parámetros del modelo.
7 votos
En el caso de la regresión logística, o de los MLG en general, no suele ser útil pensar en términos de la observación $y_i|\mathbf{x}$ como "media + error". Es mejor pensar en términos de distribución condicional. Yo no llegaría a decir que "no existe ningún término de error", sino que "no es útil pensar en esos términos". Así que no diría tanto que es una elección entre 1. o 2. como que generalmente es mejor decir "nada de lo anterior". Sin embargo, independientemente del grado en que se pueda argumentar a favor de "1." o "2.", sin embargo, "3." es definitivamente incorrecto. ¿Dónde has visto eso?
1 votos
@Glen_b: ¿Se podría argumentar a favor de (2)? He conocido gente que lo dice pero nunca lo defiende cuando se le cuestiona.
6 votos
@Glen_b Las tres afirmaciones tienen interpretaciones constructivas en las que son verdaderas. (3) se aborda en es.wikipedia.org/wiki/Distribución_logística#Aplicaciones y es.wikipedia.org/wiki/Escogida_discreta#Escogida_Binaria .
1 votos
@whuber: He corregido mi respuesta sobre (3), que no estaba bien pensada; pero sigo desconcertado sobre en qué sentido (2) podría ser correcta.
3 votos
@Scortchi Aunque tienes razón en que (2) es incorrecto, si lo interpretamos como que la diferencia entre una observación y su expectativa tiene una distribución Binomial traducido por la expectativa entonces será (trivialmente) correcto. El comentario entre paréntesis en (2) sugiere fuertemente que esta es la interpretación prevista. Obsérvese que también pueden definirse otros "términos de error" útiles, como el $\chi^2$ y los términos de error de desviación descritos en Hosmer & Lemeshow (y, sujetos a las advertencias adecuadas que allí se comentan, sus cuadrados tienen una aproximación $\chi^2$ distribuciones).