131 votos

¿Cuándo utilizar los MLG gamma?

La distribución gamma puede adoptar una gama bastante amplia de formas y, dado el vínculo entre la media y la varianza a través de sus dos parámetros, parece adecuada para tratar la heteroscedasticidad en datos no negativos, de un modo que las MCO con transformación logarítmica no pueden hacer sin WLS o algún tipo de estimador VCV consistente con la heteroscedasticidad.

Lo utilizaría más bien para la modelización rutinaria de datos no negativos, pero no conozco a nadie más que lo utilice, no lo he aprendido en un aula formal y la literatura que leo nunca lo utiliza. Cada vez que busco en Google algo como "usos prácticos del GLM gamma", me sale el consejo de utilizarlo para los tiempos de espera entre eventos de Poisson. DE ACUERDO. Pero eso parece restrictivo y no puede ser su único uso.

Ingenuamente, parece que el MLG gamma es un medio relativamente ligero de suposición para modelar datos no negativos, dada la flexibilidad de gamma. Por supuesto, hay que comprobar los gráficos Q-Q y los gráficos de residuos como cualquier modelo. Pero, ¿hay algún inconveniente serio que se me escape? ¿Más allá de la comunicación a la gente que "sólo ejecuta OLS"?

2 votos

Llego bastante tarde a la conversación, pero estoy interesado en la regresión Gamma, ya que cumple los mismos propósitos que la regresión de Poisson (hasta donde yo sé), pero debido a su forma continua, es más fácil para los cálculos de gradiente - lo que potencialmente hace que sea una mejor opción para el software de modelado bayesiano que utiliza HMC/NUTS de muestreo basado en el gradiente, como PyMC3, Stan, etc. (Tengo curiosidad por saber qué piensan los demás)

75voto

AdamSane Puntos 1825

La gamma tiene una propiedad que comparte con la lognormal, a saber, que cuando el parámetro de forma se mantiene constante mientras se varía el parámetro de escala (como suele hacerse cuando se utiliza cualquiera de los dos para los modelos), la varianza es proporcional a la media al cuadrado (coeficiente de variación constante).

Algo parecido a esto ocurre con bastante frecuencia con los datos financieros o, de hecho, con muchos otros tipos de datos.

Como resultado, suele ser adecuado para datos continuos, positivos, sesgados a la derecha y cuya varianza es casi constante en la escala logarítmica, aunque hay otras opciones bien conocidas (y a menudo bastante disponibles) con esas propiedades.

Además, es habitual ajustar un enlace logarítmico con el MLG gamma (es relativamente más raro utilizar el enlace natural). Lo que lo hace ligeramente diferente de ajustar un modelo lineal normal a los logaritmos de los datos es que en la escala logarítmica la gamma está sesgada a la izquierda en diversos grados mientras que la normal (el logaritmo de una lognormal) es simétrica. Esto hace que (la gamma) sea útil en una variedad de situaciones.

He visto usos prácticos de los GLM gamma discutidos (con ejemplos de datos reales) en (lo que se me ocurre) de Jong & Heller y Libera así como numerosos artículos; también he visto aplicaciones en otras áreas. Ah, y si no recuerdo mal, Venables y Ripley's MASS lo utiliza en el absentismo escolar (los datos de la quina; Editar: resulta que en realidad está en Estadísticas Complementos del MASS (ver p11, la página 14 del pdf, tiene un enlace de registro pero hay un pequeño desplazamiento del DV). Uh, y McCullagh y Nelder hicieron un ejemplo de coagulación de la sangre, aunque tal vez puede haber sido enlace natural.

Luego está El libro de Faraway donde hizo un ejemplo de seguro de coche y un ejemplo de datos de fabricación de semiconductores.

Elegir cualquiera de las dos opciones tiene algunas ventajas y algunos inconvenientes. Como hoy en día ambas son fáciles de colocar, en general es cuestión de elegir la más adecuada.

Está lejos de ser la única opción; por ejemplo, también hay GLMs gaussianos inversos, que son más asimétricos/de cola más pesada (e incluso más heteroskedásticos) que gamma o lognormal.

En cuanto a los inconvenientes, es más difícil hacer intervalos de predicción. Algunas pantallas de diagnóstico son más difíciles de interpretar. Calcular las expectativas en la escala del predictor lineal (generalmente la escala logarítmica) es más difícil que para el modelo lognormal equivalente. Las pruebas de hipótesis y los intervalos son generalmente asintóticos. Suelen ser problemas relativamente menores.

Tiene algunas ventajas sobre la regresión logarítmica normal (tomar los logaritmos y ajustar un modelo de regresión lineal ordinario); una de ellas es que la predicción de la media es fácil.

3 votos

¿Debe ser "Gamma" o "gamma"? Sabemos que no lleva el nombre de una persona. He visto la "g" minúscula con mucha más frecuencia. Está claro que la distribución lleva el nombre de la función, que se remonta al siglo XVIII.

2 votos

El $\Gamma$ La notación es la única razón que he visto para ese uso. En el caso de las distribuciones en general, las mayúsculas suelen hacerse eco de los apellidos, por ejemplo, Poisson o Gauss, como ya sabes.

0 votos

@NickCox Lo he cambiado como sugieres, y de paso he arreglado la "Gaussiana Inversa".

34voto

Nick Cox Puntos 22819

Es una buena pregunta. De hecho, por qué la gente no utiliza más los modelos lineales generalizados (GLM) también es una buena pregunta.

Nota de advertencia: Algunas personas utilizan GLM para el modelo lineal general, no es lo que se pretende aquí.

  • Depende de dónde se mire. Por ejemplo, las distribuciones gamma han sido populares en varias de las ciencias ambientales durante algunas décadas, por lo que la modelización con variables predictoras también es una extensión natural. Hay muchos ejemplos en hidrología y geomorfología, por nombrar algunos campos en los que me he desviado.

  • Es difícil precisar cuándo utilizarlo, más allá de la respuesta vacía de cuando funciona mejor. Si los datos son positivos y asimétricos, a menudo pruebo los modelos gamma y lognormal (en el contexto de los GLM, la familia normal o gaussiana) y elijo el que funciona mejor.

  • La modelización gamma seguía siendo bastante difícil de hacer hasta hace poco, ciertamente en comparación con, por ejemplo, la toma de registros y la aplicación de regresiones lineales, sin tener que escribir un montón de código. Incluso ahora, supongo que no es igual de fácil en todos los principales entornos de software estadístico.

  • A la hora de explicar lo que se utiliza y lo que no, a pesar de los méritos y deméritos, creo que siempre se recurre precisamente al tipo de factores que identificas: lo que se enseña, lo que aparece en la literatura que la gente lee, lo que la gente oye hablar en el trabajo y en las conferencias. Así que se necesita una especie de sociología amateur de la ciencia para explicarlo. La mayoría de la gente parece seguir caminos rectos y estrechos dentro de sus propios campos. A grandes rasgos, cuanto mayor es la bibliografía interna de cualquier campo sobre técnicas de modelización, menos inclinada parece la gente de ese campo a probar algo diferente.

2 votos

¿Cómo se determina cuál funciona mejor?

9 votos

Me fijo en las verosimilitudes, las R-cuadradas (a pesar de lo que diga la gente), los intervalos de confianza en torno a las estimaciones de los parámetros, los gráficos de lo observado frente a lo ajustado, los residuos frente a lo ajustado, etc. Si hubiera ciencia que favoreciera un modelo sobre otro, eso también pesaría, pero en mi experiencia la ciencia no está tan bien formada. ¿De qué otra forma se podría hacer?

0 votos

@NickCox ¿En qué debemos fijarnos cuando analizamos los datos observados frente a los ajustados, los residuos frente a los ajustados y el gráfico Qq normal? Entiendo que esto puede diferir entre los modelos. ¿Podría dar un ejemplo para gamma, poisson y binomial negativa? Gracias

15voto

gabor Puntos 612

La regresión gamma está en el MLG y así se pueden obtener muchas cantidades útiles para fines de diagnóstico, como los residuos de desviación, los apalancamientos, la distancia de Cook, etc. Tal vez no sean tan agradables como las cantidades correspondientes para los datos transformados en logaritmos.

Una cosa que la regresión gamma evita en comparación con la lognormal es el sesgo de transformación. La desigualdad de Jensen implica que las predicciones de la regresión lognormal estarán sistemáticamente sesgadas porque está modelando transformada datos en lugar del valor esperado transformado.

Además, la regresión gamma (u otros modelos para datos no negativos) puede hacer frente a una gama más amplia de datos que la lognormal debido a que puede tener una moda en 0, como se tiene con la distribución exponencial, que está en la familia gamma, lo que es imposible para la lognormal.

He leído sugerencias de que el uso de la probabilidad de Poisson como una cuasi-verosimilitud es más estable. Son conjugados el uno del otro. La cuasi-Poisson también tiene el beneficio sustancial de ser capaz de hacer frente a los valores exactos de 0, lo que molesta tanto la gamma y, especialmente, la lognormal.

11voto

Vincent Puntos 1064

En mi opinión, supone que los errores se encuentran en una familia de distribuciones gamma, con las mismas formas, y con las escalas que cambian según la fórmula relacionada.

Pero es difícil hacer un diagnóstico del modelo. Tenga en cuenta que el simple gráfico QQ no es adecuado aquí, porque se trata de la misma distribución, mientras que la nuestra es una familia de distribuciones con diferentes varianzas.

Ingenuamente, se puede utilizar el gráfico de residuos para ver que tienen escalas diferentes pero la misma forma, normalmente con colas largas.

Según mi experiencia, el GLM gamma puede probarse para algunos problemas de distribución de cola larga, y se utiliza ampliamente en los sectores de seguros y medio ambiente, etc. Sin embargo, los supuestos son difíciles de comprobar y el modelo no suele funcionar bien, por lo que diferentes artículos abogan por utilizar otras distribuciones de la familia con el mismo problema, como la gaussiana inversa, etc. En la práctica, parece que estas elecciones dependen del juicio de los expertos con la experiencia industrial. Esto limita el uso del GLM gamma.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X