45 votos

¿Cómo decidir qué familia de glm utilizar?

Tengo datos de densidad de peces que estoy tratando de comparar entre varias técnicas de recolección diferentes, los datos tienen muchos ceros, y el histograma parece vaugley apropiado para una distribución de poisson excepto que, como densidades, no son datos enteros. Soy relativamente nuevo en GLMs y he pasado los últimos días buscando en internet cómo decir qué distribución usar pero he fracasado totalmente en encontrar algún recurso que ayude a tomar esta decisión. Un histograma de muestra de los datos tiene el siguiente aspecto: Sample Histogram

No tengo ni idea de cómo decidir la familia adecuada para el MLG. Si alguien tiene algún consejo o puede darme un recurso que deba consultar, sería fantástico.

68voto

Dipstick Puntos 4869

El modelo lineal generalizado se define en términos de predictor lineal

$$ \eta = \boldsymbol{X} \beta $$

que pasa por el función de enlace $g$ :

$$ g(E(Y\,|\,\boldsymbol{X})) = \eta $$

Modela la relación entre la variable dependiente $Y$ y las variables independientes $\boldsymbol{X} = X_1,X_2,\dots,X_k$ . Más concretamente, se trata de modela una expectativa condicional de $Y$ dado $\boldsymbol{X}$ ,

$$ E(Y\,|\,\boldsymbol{X} ) = \mu = g^{-1}(\eta) $$

por lo que el modelo puede definirse en términos probabilísticos como

$$ Y\,|\,\boldsymbol{X} \sim f(\mu, \sigma^2) $$

donde $f$ es una distribución de probabilidad del familia exponencial . Así que lo primero que hay que notar es que $f$ es no la distribución de $Y$ pero $Y$ lo sigue condicionalmente en $\boldsymbol{X}$ . La elección de esta distribución depende de su conocimiento (lo que pueda suponer) sobre la relación entre $Y$ y $\boldsymbol{X}$ . Así que en cualquier lugar donde se lea sobre la distribución, lo que se quiere decir es la distribución condicional.

Por otro lado, en la práctica, si usted está interesado en construir un modelo predictivo, puede estar interesado en probar algunas distribuciones diferentes, y al final aprender que una de ellas le da resultados más precisos que las otras, incluso si no es la más "apropiada" en términos de consideraciones teóricas (por ejemplo, en teoría debería utilizar Poisson, pero en la práctica la regresión lineal estándar funciona mejor para sus datos).

20voto

alexs77 Puntos 36

Las familias GLM comprenden una función de enlace así como una relación media-varianza. Para los MLG de Poisson, la función de enlace es un logaritmo, y la relación media-varianza es la identidad. A pesar de las advertencias que le hace la mayoría del software estadístico, es completamente razonable modelar una relación en datos continuos en la que la relación entre dos variables es lineal en la escala logarítmica, y la varianza aumenta de acuerdo con la media.

Esta es, en esencia, la razón de ser de la elección de la función de enlace y varianza en un MLG. Por supuesto, hay varios supuestos detrás de este proceso. Se puede hacer un modelo más robusto utilizando la cuasi verosimilitud (véase ?quasipoisson ) o los errores estándar robustos (véase el paquete sandwich o gee ).

Ha observado correctamente que muchas densidades son 0 en sus datos. En los modelos de probabilidad de Poisson, es apropiado muestrear ocasionalmente 0s en los datos, por lo que no es necesariamente el caso de que estas observaciones estén conduciendo a un sesgo en sus estimaciones de las tasas.

Para inspeccionar los supuestos de los MLG, suele ser útil observar los residuos de Pearson. Éstos dan cuenta de la relación de la varianza media y muestran al estadístico si determinadas observaciones, como estos 0s, están afectando de forma atroz a la estimación y los resultados.

3voto

kjetil b halvorsen Puntos 7012

Esta es una pregunta algo amplia, estás preguntando por cómo hacer modelización, y hay libros enteros dedicados a ello. Por ejemplo, cuando se trata de datos de conteo, considere lo siguiente:

Además de elegir una distribución, hay que elegir una función de enlace. Con los datos de recuento puede probar la distribución poisson o binomial negativa, y la función de enlace log. Aquí se da una razón para el enlace logarítmico: Bondad del ajuste y qué modelo elegir: regresión lineal o Poisson Si sus parches tienen áreas muy diferentes, tal vez debería incluir el logaritmo del área como compensación, para modelar los recuentos por unidad de área y no los recuentos absolutos. Para una explicación del desplazamiento en la regresión de datos de recuento, véase ¿Cuándo utilizar un desplazamiento en una regresión de Poisson?

EDIT 

Esta respuesta se publicó originalmente en otra pregunta, que se fusionó con ésta. Aunque la respuesta es general, comentaba detalles de un conjunto de datos y un problema que ya no están en la pregunta. La pregunta original se puede encontrar en el siguiente enlace: Familia en el MLG: ¿cómo elegir la correcta?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X