20 votos

Sobredispersión en regresión logística

Estoy tratando de conseguir una manija en el concepto de la sobredispersión en la regresión logística. He leído que la sobredispersión es cuando se observa la varianza de una variable de respuesta es mayor de lo que cabría esperar a partir de la distribución binomial.

Pero si un binomio variable sólo puede tomar dos valores (1/0), ¿cómo puede tener una media y la varianza?

Estoy bien con el cálculo de la media y la varianza de los éxitos de x número de ensayos de Bernoulli. Pero no puedo envolver mi cabeza alrededor del concepto de la media y la varianza de una variable que sólo puede tomar dos valores.

¿Alguien puede proporcionar una interfaz intuitiva reseña de:

  1. El concepto de la media y la varianza de una variable que sólo puede tomar dos valores
  2. El concepto de sobredispersión en una variable que sólo puede tomar dos valores

15voto

Underminer Puntos 1112

Una variable aleatoria binomial con $N$ ensayos y la probabilidad de éxito $p$ puede tomar más de dos valores. El binomio variable aleatoria que representa el número de éxitos en los $N$ ensayos, y, de hecho, puede tomar $N+1$ diferentes valores de ($0,1,2,3,...,N$). Así que si la varianza de la distribución es mayor que también se espera que bajo el binomio supuestos (tal vez hay exceso de ceros, por ejemplo), que es un caso de sobredispersión.

Sobredispersión no tiene sentido para una variable aleatoria de Bernoulli ($N = 1$)

En el contexto de una regresión logística de la curva, se puede considerar una "pequeña parte", o a la agrupación, a través de un estrecho rango de valor predictor para ser una realización de un experimento binomial (tal vez contamos con 10 puntos en el sector con un cierto número de éxitos y fracasos). Aunque no podemos realmente tener múltiples ensayos en cada predictor de valor, y estamos viendo las proporciones en lugar de recuentos, nos sería de esperar que la proporción de cada uno de estos "cortes" para estar más cerca de la curva. Si estos "cortes" tienen una tendencia a estar lejos de la curva, hay demasiada variabilidad en la distribución. Así que por la agrupación de las observaciones, de crear realizaciones de variables aleatorias binomiales, en lugar de buscar la 0/1 datos de forma individual.

10voto

Robert Puntos 1

Como ya se ha señalado por otros, sobredispersión no se aplica en el caso de Bernoulli (0/1) de la variable, ya que en ese caso, la media necesariamente determina la varianza. En el contexto de la regresión logística, esto significa que si su resultado es binario, no se puede estimar un parámetro de dispersión. (N. B. Esto no significa que usted puede ignorar el potencial de correlación entre las observaciones sólo porque su resultado es binario!)

Si, por otro lado, su resultado es un conjunto de proporciones, entonces usted puede estimar un parámetro de dispersión (que, aunque a menudo mayor que uno, también puede ser menor que uno) dividiendo el de Pearson chi-cuadrado de estadística (o la desviación) por el residual de grados de libertad.

Recuerde, la regresión logística con una puramente resultado binario es simplemente un caso especial de la más general del modelo de regresión logística en el que el binomio índice puede exceder de una (y puede variar a través de las observaciones). Por lo tanto, la pregunta de si eres el ajuste de un modelo de regresión logística o no es ajena a la cuestión de si los datos son overdispersed.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X