23 votos

¿Familia de GLM representa la distribución de la variable de respuesta o residuos?

He estado hablando con varios miembros del laboratorio acerca de esto, y hemos ido a varias fuentes, pero todavía no tengo la respuesta:

Cuando decimos que un GLM tiene una familia de poisson vamos a decir que estamos hablando de la distribución de los residuos o la variable de respuesta?

Los puntos de discusión

  1. La lectura de este artículo se establece que la hipótesis de la GLM son La independencia estadística de las observaciones, la especificación correcta del vínculo y de la varianza de la función (lo que me hace pensar acerca de los residuos, no la variable de respuesta), la correcta escala de medición para la variable de respuesta y la falta de influencia indebida de puntos

  2. Esta pregunta tiene dos respuestas con dos puntos cada uno, el que aparece en primer lugar habla sobre los residuos, y el segundo sobre la variable de respuesta, que es?

  3. En este blogpost, cuando se habla de supuestos, que "La distribución de los residuos pueden ser otras, por ejemplo, el binomio"

  4. Al principio de este capítulo que decir que la estructura de los errores tiene que ser de Poisson, pero los residuos seguramente tendrá valores positivos y negativos, ¿cómo puede ser eso de Poisson?

  5. Esta pregunta, que a menudo es citado en preguntas como esta para hacer de ellos duplicados no haya aceptado la respuesta

  6. Esta pregunta las respuestas hablar de respuesta y no de los residuos

  7. En esta descripción del curso de la Universidad de Pensilvania se habla de la variable de respuesta en las premisas, no los residuos

31voto

kjetil b halvorsen Puntos 7012

La familia argumento para modelos glm determina la distribución de la familia para la distribución condicional de la respuesta, no de los residuos (excepto los de la cuasi-modelos).

Veo de esta forma: Por la costumbre de regresión lineal, podemos escribir el modelo como $$Y_i \sim \text{Normal}(\beta_0+x_i^T\beta \sigma^2). $$ Esto significa que la respuesta $Y_i$ tiene una distribución normal (con varianza constante), pero la expectativa es diferente para cada una de las $i$. Por lo tanto, la distribución condicional de la respuesta es la distribución normal (pero uno diferente para cada una de las $i$). Otra manera de escribir de este modelo es $$ Y_i = \beta_0+x_i^T\beta + \epsilon_i $$ where each $\epsilon_i$ is distributed $\text{Normal}(0, \sigma^2)$.

Así que para la distribución normal de la familia de ambas descripciones son correctas (cuando se interpreta correctamente). Esto es debido a que para el modelo lineal tenemos una separación clara en el modelo de la parte sistemática (la $\beta_0+x_i^T\beta$) y la alteración de la parte (la $\epsilon_i$) que son simplemente añadidos. Pero para el resto de las funciones de la familia, esta separación no es posible! No hay ni un limpio definición de lo residual medio (y por esa razón, muchas definiciones diferentes de "residual").

Así que para todas esas familias, utilizamos una definición en el estilo de la primera muestra de la ecuación anterior. Es decir, la distribución condicional de la respuesta. Así que, no, los residuos (sea lo que sea definido) en la regresión de Poisson no tiene una distribución de Poisson.

23voto

Isabella Ghement Puntos 457

Más a Kjetil excelente respuesta, quería añadir algunos ejemplos específicos para ayudar a aclarar el significado de una condicional de distribución, que puede ser un poco de un concepto esquivo.

Digamos que usted tomó una muestra al azar de 100 peces en un lago y estás interesado en ver cómo la edad de los peces afecta a varias variables de resultado:

  1. Los peces de peso (Peso);
  2. Sea o no que los peces son más de 30cm;
  3. El número de escamas de pescado.

El primer resultado de la variable es continua, la segunda es binaria (0 = el pez es de NO más de 30 cm; 1 = el pez ES de más de 30 cm) y la tercera es una variable de recuento.

Regresión Lineal Simple

¿Cómo influye la Edad de Peso? Usted va a formular un modelo de regresión lineal simple de la forma:

Weight = beta_{0} + beta_{1}*Age + epsilon

donde la $epsilon$'s son independientes, idénticamente distribuidas, siguiendo una distribución Normal con media 0 y desviación estándar $sigma$. En este modelo, la media del Peso de la variable para todos los peces en el lago de compartir la misma edad se supone que varía linealmente con la edad. La media condicional está representado por beta_{0} + beta_{1}*Edad. Se llama condicional porque es el peso medio de todos los peces en el lago con la misma Edad. (La incondicional la media de peso sería el peso promedio de todos los peces en el lago, independientemente de su peso.)

Simple De Regresión Logística Binaria

Cómo influye la Edad en si, o no, los peces son más de 30cm? Usted va a formular una simple regresión logística binaria modelo de la forma:

log(p/(1-p)) = beta_{0} + beta_{1}*Age 

donde p denota la probabilidad condicional de que un pez de una determinada edad es de más de 30cm. En este modelo, la media condicional de la variable "sea o no que los peces son más de 30cm" correspondiente a todos los peces en el lago de compartir la misma edad se supone que varía linealmente con la edad después de ser alimentados a la transformación logit. El logit-transformado media condicional está representado por beta_{0} + beta_{1}la Edad. Este modelo funciona porque se supone que la distribución de los valores de la variable "sea o no que los peces son más de 30cm" para una determinada edad es una distribución de Bernoulli. Recordemos que para esta distribución, la varianza es una función del valor medio, por lo que si se puede estimar su valor medio, también podemos estimar su varianza. (La media de una variable de Bernoulli es p y la varianza es p(1-p).) Ver también https://www.theanalysisfactor.com/link-functions-and-errors-in-logistic-regression/.

Simple De Regresión De Poisson

Cómo influye la Edad en el número de escamas de pescado? Usted va a formular un simple modelo de regresión de Poisson de la forma:

log(mu) = beta_{0} + beta_{1}*Age 

donde mu denota la media condicional valor de la variable de resultado "número de peces de escamas para peces de una determinada edad (es decir, se espera que el número de peces de escamas para todos los peces en el lago de una determinada edad). En este modelo, la media condicional de la variable de resultado se supone que varía linealmente con la edad después de ser alimentados a la transformación de registro. El registro de transformadas media condicional está representado por beta_{0} + beta_{1}*Edad. Este modelo funciona porque se supone que la distribución de los valores de la variable "número de peces de escamas para todos los peces en el lago de una determinada edad es una distribución de Poisson. Recordemos que para esta distribución, la media y la varianza son iguales, por lo que es suficiente para modelar su valor medio.

Para resumir, un condicional de distribución representa la distribución de los resultados para determinados valores de la variable predictora(s) incluidas en el modelo. Cada tipo de modelo de regresión se muestra arriba impone ciertas distribución de hipótesis sobre la distribución condicional de la variable de resultado de cierta Edad. Basándose en estos supuestos de distribución, el modelo se procede a establecer la forma en que (1) la media de la distribución condicional varía en función de la edad (regresión lineal simple), (2) el logit transformadas por medio de la condicional distribución varía en función de la edad (simple regresión logística binaria) o (3) el registro de transformadas por medio de la condicional distribución varía en función de la edad.

Para cada tipo de modelo, se puede definir correspondiente de los residuos para el propósito de la comprobación del modelo. En particular, de Pearson y la desviación de los residuos podría ser definido para la logística y modelos de regresión de Poisson.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X