En cuanto a la descripción de la distribución condicional, la gaussiana inversa es más asimétrica y tiene una varianza que aumenta como una potencia mayor de la media (el cubo en lugar del cuadrado).
Yo me inclinaría por trazar log(y) frente a los principales predictores, aunque los patrones particulares de los predictores pueden interferir fácilmente con este juicio; puede que tengas que ajustar un modelo. Una forma fácil de hacerlo es tomar los logaritmos y ajustar una regresión lineal que debería ser suficiente para identificar la heteroscedasticidad, la asimetría izquierda o derecha y la idoneidad de un enlace logarítmico, todo al mismo tiempo. Sin embargo, tenga en cuenta que si desea realizar una inferencia - realizar pruebas de hipótesis, o calcular intervalos de confianza, o predicciones e intervalos de predicción, etc., esto se verá afectado por el proceso de elección del modelo (toda esa observación de los datos afecta a las propiedades de sus inferencias). Si se puede hacer algún tipo de división de los datos (extraer un subconjunto aleatorio para ayudar a identificar el modelo), eso ayudaría a evitar el problema. [[Puede que no necesite una submuestra muy grande para elegir entre los modelos].
Si la gamma es adecuada, la dispersión no debería cambiar mucho, pero si la dispersión sigue aumentando a medida que se avanza de izquierda a derecha, la gaussiana inversa podría capturar mejor la varianza.
Además, la distribución condicional de la gamma debe ser algo sesgada a la izquierda (aunque puede ser casi simétrica), mientras que la gaussiana inversa será sesgada a la derecha.
He aquí un ejemplo en el que no se aprecia necesariamente en el gráfico de y frente a x, pero se puede ver la diferencia al poner una escala logarítmica en el eje y:
Se puede ver que la gamma tiene una dispersión esencialmente constante y una asimetría (condicionalmente) a la izquierda, mientras que la gaussiana inversa tiene una dispersión creciente y una asimetría (condicionalmente) a la derecha.
(Si la trama parece simétrico con una dispersión constante, tal vez podría considerar una lognormal en su lugar, aunque una gamma también debería funcionar bastante bien).
La elección del enlace debe estar relacionada con cómo espera que funcione la relación entre la media de la respuesta y las variables independientes (variables predictoras) (preferiblemente a partir de la teoría o de un conocimiento práctico del proceso). Sin embargo, si hace un gráfico como el anterior, debería esperar ver una línea recta (pero, de nuevo, múltiples predictores pueden conspirar para interferir con esta valoración; puede que sea mejor mirar los residuos de ese ajuste logarítmico lineal que he mencionado antes).