5 votos

Qué familia glm para datos positivos continuos

Actualmente estoy construyendo un modelo de predicción en R. Mi variable de salida es el precio de mercado de un artículo, por lo que el valor debe ser mayor que 0.

Estoy utilizando un GLM y comenzó con family = gaussian pero me di cuenta de que predije valores menores que 0. Eso no tiene sentido.

Leí que family = Gamma(link = log) encaja mejor.

¿Puede alguien explicarme por qué Gamma es, por ejemplo, mejor que la Gaussiana inversa?

¿Por qué utilizo el Link= log y no Link = inverse ?

4voto

AdamSane Puntos 1825

En cuanto a la descripción de la distribución condicional, la gaussiana inversa es más asimétrica y tiene una varianza que aumenta como una potencia mayor de la media (el cubo en lugar del cuadrado).

Yo me inclinaría por trazar log(y) frente a los principales predictores, aunque los patrones particulares de los predictores pueden interferir fácilmente con este juicio; puede que tengas que ajustar un modelo. Una forma fácil de hacerlo es tomar los logaritmos y ajustar una regresión lineal que debería ser suficiente para identificar la heteroscedasticidad, la asimetría izquierda o derecha y la idoneidad de un enlace logarítmico, todo al mismo tiempo. Sin embargo, tenga en cuenta que si desea realizar una inferencia - realizar pruebas de hipótesis, o calcular intervalos de confianza, o predicciones e intervalos de predicción, etc., esto se verá afectado por el proceso de elección del modelo (toda esa observación de los datos afecta a las propiedades de sus inferencias). Si se puede hacer algún tipo de división de los datos (extraer un subconjunto aleatorio para ayudar a identificar el modelo), eso ayudaría a evitar el problema. [[Puede que no necesite una submuestra muy grande para elegir entre los modelos].

Si la gamma es adecuada, la dispersión no debería cambiar mucho, pero si la dispersión sigue aumentando a medida que se avanza de izquierda a derecha, la gaussiana inversa podría capturar mejor la varianza.

Además, la distribución condicional de la gamma debe ser algo sesgada a la izquierda (aunque puede ser casi simétrica), mientras que la gaussiana inversa será sesgada a la derecha.

He aquí un ejemplo en el que no se aprecia necesariamente en el gráfico de y frente a x, pero se puede ver la diferencia al poner una escala logarítmica en el eje y:

Gamma and inverse Gaussian vs x with similar mean functions and log link

Se puede ver que la gamma tiene una dispersión esencialmente constante y una asimetría (condicionalmente) a la izquierda, mientras que la gaussiana inversa tiene una dispersión creciente y una asimetría (condicionalmente) a la derecha.

(Si la trama parece simétrico con una dispersión constante, tal vez podría considerar una lognormal en su lugar, aunque una gamma también debería funcionar bastante bien).

La elección del enlace debe estar relacionada con cómo espera que funcione la relación entre la media de la respuesta y las variables independientes (variables predictoras) (preferiblemente a partir de la teoría o de un conocimiento práctico del proceso). Sin embargo, si hace un gráfico como el anterior, debería esperar ver una línea recta (pero, de nuevo, múltiples predictores pueden conspirar para interferir con esta valoración; puede que sea mejor mirar los residuos de ese ajuste logarítmico lineal que he mencionado antes).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X