66 votos

Regresión logística - Término de error y su distribución

Sobre si existe un término de error en la regresión logística (y su supuesta distribución), he leído en varios sitios que:

  1. no existe ningún término de error
  2. el término de error tiene una distribución binomial (de acuerdo con la distribución de la variable de respuesta)
  3. el término de error tiene una distribución logística

¿Puede alguien aclararlo?

7 votos

En el caso de la regresión logística, o de los MLG en general, no suele ser útil pensar en términos de la observación $y_i|\mathbf{x}$ como "media + error". Es mejor pensar en términos de distribución condicional. Yo no llegaría a decir que "no existe ningún término de error", sino que "no es útil pensar en esos términos". Así que no diría tanto que es una elección entre 1. o 2. como que generalmente es mejor decir "nada de lo anterior". Sin embargo, independientemente del grado en que se pueda argumentar a favor de "1." o "2.", sin embargo, "3." es definitivamente incorrecto. ¿Dónde has visto eso?

1 votos

@Glen_b: ¿Se podría argumentar a favor de (2)? He conocido gente que lo dice pero nunca lo defiende cuando se le cuestiona.

6 votos

@Glen_b Las tres afirmaciones tienen interpretaciones constructivas en las que son verdaderas. (3) se aborda en es.wikipedia.org/wiki/Distribución_logística#Aplicaciones y es.wikipedia.org/wiki/Escogida_discreta#Escogida_Binaria .

45voto

jasonmray Puntos 1303

En la regresión lineal se supone que las observaciones siguen una distribución gaussiana con un parámetro medio condicionado a los valores del predictor. Si se resta la media de las observaciones se obtiene el error una distribución gaussiana con media cero e independiente de los valores del predictor, es decir, los errores en cualquier conjunto de valores del predictor siguen la misma distribución.

En las observaciones de regresión logística $y\in\{0,1\}$ se supone que siguen una distribución Bernoulli † con un parámetro medio (una probabilidad) condicionado a los valores del predictor. Así, para cualquier valor predictor dado, se determina una media $\pi$ sólo hay dos errores posibles: $1-\pi$ que se produce con probabilidad $\pi$ , & $0-\pi$ que se produce con probabilidad $1-\pi$ . Para otros valores del predictor los errores serán $1-\pi'$ que se produce con probabilidad $\pi'$ , & $0-\pi'$ que se produce con probabilidad $1-\pi'$ . Así que no hay una distribución de error común independiente de los valores de los predictores, por lo que se dice que "no existe ningún término de error" (1).

"El término de error tiene una distribución binomial" (2) es simplemente una chapuza: "Los modelos gaussianos tienen errores gaussianos", ergo los modelos binomiales tienen errores binomiales". (O, como señala @whuber, podría entenderse como "la diferencia entre una observación y su expectativa tiene una distribución binomial traducida por la expectativa").

"El término de error tiene una distribución logística" (3) surge de la derivación de la regresión logística del modelo donde se observa si una variable latente con errores que siguen una distribución logística supera o no algún umbral. Así que no es el mismo error definido anteriormente. (Parecería una cosa de impar decir OMI fuera de ese contexto, o sin referencia explícita a la variable latente).

† Si tiene $k$ observaciones con los mismos valores predictores, dando la misma probabilidad $\pi$ para cada uno, entonces su suma $\sum y$ sigue una distribución binomial con probabilidad $\pi$ y no. ensayos $k$ . Teniendo en cuenta $\sum y -k\pi$ ya que el error lleva a las mismas conclusiones.

25voto

dan90266 Puntos 609

Esto ya se ha tratado antes. Un modelo que está restringido a tener valores predichos en $[0,1]$ no puede tener un término de error aditivo que haga que las predicciones se salgan de $[0,1]$ . Piense en el ejemplo más sencillo de un modelo logístico binario: un modelo que sólo contiene un intercepto. Esto es equivalente al problema Bernoulli de una muestra, a menudo llamado (en este caso simple) el problema binomial porque (1) toda la información está contenida en el tamaño de la muestra y el número de eventos o (2) la distribución Bernoulli es un caso especial de la distribución binomial con $n=1$ . Los datos brutos en esta situación son una serie de valores binarios, y cada uno tiene una distribución Bernoulli con parámetro desconocido $\theta$ que representa la probabilidad del evento. No hay término de error en la distribución Bernoulli, sólo hay una probabilidad desconocida. El modelo logístico es un modelo de probabilidad.

22voto

ManuToMatic Puntos 82

Para mí, la unificación de la regresión logística, lineal, de Poisson, etc., siempre ha sido en términos de especificación de la media y la varianza en el marco del modelo lineal generalizado. Empezamos especificando una distribución de probabilidad para nuestros datos, normal para datos continuos, Bernoulli para dicotómicos, Poisson para recuentos, etc... Luego especificamos una función de enlace que describe cómo se relaciona la media con el predictor lineal:

$g(\mu_i) = \alpha + x_i^T\beta$

Para la regresión lineal, $g(\mu_i) = \mu_i$ .

Para la regresión logística, $g(\mu_i) = \log(\frac{\mu_i}{1-\mu_i})$ .

Para la regresión de Poisson, $g(\mu_i) = \log(\mu_i)$ .

Lo único que se podría considerar en cuanto a la redacción de un término de error sería declarar:

$y_i = g^{-1}(\alpha+x_i^T\beta) + e_i$ donde $E(e_i) = 0$ y $Var(e_i) = \sigma^2(\mu_i)$ . Por ejemplo, para la regresión logística, $\sigma^2(\mu_i) = \mu_i(1-\mu_i) = g^{-1}(\alpha+x_i^T\beta)(1-g^{-1}(\alpha+x_i^T\beta))$ . Pero, no se puede afirmar explícitamente que $e_i$ tiene una distribución de Bernoulli como se ha mencionado anteriormente.

Tenga en cuenta, sin embargo, que los modelos lineales generalizados básicos sólo suponen una estructura para la media y la varianza de la distribución. Se puede demostrar que las ecuaciones de estimación y la matriz hessiana sólo dependen de la media y la varianza que se asuma en el modelo. Por lo tanto, no es necesario preocuparse por la distribución de $e_i$ para este modelo porque los momentos de orden superior no juegan un papel en la estimación de los parámetros del modelo.

0voto

sarah Puntos 6
  1. No existen errores. Estamos modelando la media. La media es sólo un número verdadero.
  2. Esto no tiene sentido para mí.
  3. Piense en la variable de respuesta como una variable latente. Si se asume que el término de error se distribuye normalmente, el modelo se convierte en un modelo probit. Si asume que la distribución del término de error es logística, entonces el modelo es una regresión logística.

3 votos

No veo cómo esto ayuda a entender un modelo de probabilidad. Los modelos de probabilidad son más sencillos de lo que parece.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X