23 votos

¿Existe la hipótesis i.i.d. en la regresión logística?

¿Existe la hipótesis i.i.d. en la variable de respuesta de la regresión logística?

Por ejemplo, supongamos que tenemos $1000$ puntos de datos. Parece que la respuesta $Y_i$ procede de una distribución Bernoulli con $p_i=\text{logit}^{-1}(\beta_0+\beta_1 x_i)$ . Por lo tanto, deberíamos tener $1000$ Distribuciones Bernoulli, con diferentes parámetros $p$ .

Por tanto, son "independientes", pero no son "idénticos".

¿Estoy en lo cierto?


PS. Aprendí regresión logística de la literatura de "aprendizaje automático", donde optimizamos la función objetivo y comprobamos si es buena en datos de prueba, sin hablar demasiado de supuestos.

Mi pregunta comenzó con este post Comprender la función de enlace en el modelo lineal generalizado Donde intento aprender más sobre supuestos estadísticos.

18voto

Dipstick Puntos 4869

De su pregunta anterior aprendió que el MLG se describe en términos de distribución de probabilidad, predictor lineal $\eta$ y función de enlace $g$ y se describe como

$$ \begin{align} \eta &= X\beta \\ E(Y|X) &= \mu = g^{-1}(\eta) \end{align} $$

donde $g$ es una función de enlace logit y $Y$ se supone que sigue una distribución Bernoulli

$$ Y_i \sim \mathcal{B}(\mu_i) $$

cada $Y_i$ sigue la distribución Bernoulli con su propio medio $\mu_i$ condicionado a $X$ . Somos no suponiendo que cada $Y_i$ procede de la misma distribución, con la misma media (éste sería el modelo de sólo intercepción $Y_i = g^{-1}(\mu)$ ), sino que todos tienen medios diferentes. Suponemos que $Y_i$ son independiente es decir, no tenemos que preocuparnos de cosas tales como la autocorrelación entre los sucesivos $Y_i$ valores, etc.

En i.i.d. está relacionado con los errores en la regresión lineal (es decir, GLM gaussiano), donde el modelo es

$$ y_i = \beta_0 + \beta_1 x_i + \varepsilon_i = \mu_i + \varepsilon_i $$

donde $\varepsilon_i \sim \mathcal{N}(0, \sigma^2)$ por lo que tenemos i.i.d. ruido alrededor $\mu_i$ . Por eso nos interesa diagnóstico de residuos y prestar atención a la residuales frente a ajustados parcela . Ahora bien, en el caso de GLM como la regresión logística es no es tan sencillo ya que no existe un término de ruido aditivo como en el modelo gaussiano (véase aquí , aquí y aquí ). Seguimos queriendo que los residuos sean "aleatorios" en torno a cero y no queremos ver ninguna tendencia en ellos porque sugerirían que hay algunos efectos que no se tienen en cuenta en el modelo, pero no suponemos que sean normales y/o i.i.d. . Véase también el Sobre la importancia de la hipótesis i.i.d. en el aprendizaje estadístico hilo.

Como nota al margen, obsérvese que incluso podemos abandonar la suposición de que cada $Y_i$ procede del mismo tipo de distribución. Hay modelos (no GLM) que suponen que diferentes $Y_i$ pueden tener diferentes distribuciones con diferentes parámetros, es decir, que sus datos proceden de un mezcla de diferentes distribuciones . En tal caso, también supondríamos que el $Y_i$ son independiente ya que los valores dependientes, procedentes de diferentes distribuciones con diferentes parámetros (es decir, los datos típicos del mundo real) es algo que en la mayoría de los casos sería demasiado complicado de modelizar (a menudo imposible).

6voto

Cliff AB Puntos 3213

Como ya se ha dicho, aunque a menudo consideramos el caso de iid errores en la regresión lineal, esto no tiene un equivalente directo en la mayoría de los modelos lineales generalizados (incluida la regresión logística). En la regresión logística, normalmente empleamos el supuesto de independencia de los resultados que tienen todos una relación muy estricta (es decir, efectos lineales en las probabilidades logarítmicas). Pero esto da lugar a variables aleatorias que no son idénticas, ni son descomponibles en un término constante más un error iid como en el caso de la regresión lineal.

Si usted realmente quiere demostrar que las respuestas tienen algún tipo de relación iid, entonces sígame en el siguiente párrafo. Ten en cuenta que esta idea se sale un poco de lo habitual; es posible que no obtengas todo el crédito por esta respuesta en un examen final si tu profesor no tiene paciencia.

Quizá conozcas el método de la CDF inversa para generar variables aleatorias. Si no, aquí tienes un repaso: si $X$ tiene función de distribución acumulativa $F_X$ entonces puedo producir extracciones aleatorias de $X$ realizando primero un sorteo aleatorio $q \sim \text{uniform(0,1)}$ calculando a continuación $X = F_X^{-1}(q)$ . ¿Qué relación tiene esto con la regresión logística? Bien, podríamos pensar que el proceso generador de nuestras respuestas tiene dos partes; una parte fija que relaciona las covariables con las probabilidades de éxito, y una parte aleatoria que determina el valor de la variable aleatoria condicional a la parte fija. La parte fija viene definida por la función de enlace de la regresión logística, es decir $p = \text{expit}(\beta_o + \beta_1 x)$ . Para la parte aleatoria, definamos $F_Y( y | p)$ es la CDF de una distribución Bernoulli con probabilidad $p$ . Entonces podemos pensar en la variable de respuesta $Y_i$ se genera mediante los tres pasos siguientes:

1.) $p_i = \text{expit}(\beta_o + \beta_1 x_i)$

2.) $q_i \sim\text{uniform(0,1)}$

3.) $Y_i = F^{-1}(q_i | p_i)$

Entonces la suposición estándar en regresión logística es que $q_i$ es iid.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X