Qué familia glm para datos positivos continuos

Question

Qué familia glm para datos positivos continuos

Preguntado el 4 de Octubre, 2016: Cuando se hizo la pregunta
5509 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Actualmente estoy construyendo un modelo de predicción en R. Mi variable de salida es el precio de mercado de un artículo, por lo que el valor debe ser mayor que 0.

Estoy utilizando un GLM y comenzó con family = gaussian pero me di cuenta de que predije valores menores que 0. Eso no tiene sentido.

Leí que family = Gamma(link = log) encaja mejor.

¿Puede alguien explicarme por qué Gamma es, por ejemplo, mejor que la Gaussiana inversa?

¿Por qué utilizo el Link= log y no Link = inverse ?

Preguntado el 4 de Octubre, 2016 por user84119

Answer 1

1 Respuestas

Answer 2

4voto

AdamSane Puntos 1825

En cuanto a la descripción de la distribución condicional, la gaussiana inversa es más asimétrica y tiene una varianza que aumenta como una potencia mayor de la media (el cubo en lugar del cuadrado).

Yo me inclinaría por trazar log(y) frente a los principales predictores, aunque los patrones particulares de los predictores pueden interferir fácilmente con este juicio; puede que tengas que ajustar un modelo. Una forma fácil de hacerlo es tomar los logaritmos y ajustar una regresión lineal que debería ser suficiente para identificar la heteroscedasticidad, la asimetría izquierda o derecha y la idoneidad de un enlace logarítmico, todo al mismo tiempo. Sin embargo, tenga en cuenta que si desea realizar una inferencia - realizar pruebas de hipótesis, o calcular intervalos de confianza, o predicciones e intervalos de predicción, etc., esto se verá afectado por el proceso de elección del modelo (toda esa observación de los datos afecta a las propiedades de sus inferencias). Si se puede hacer algún tipo de división de los datos (extraer un subconjunto aleatorio para ayudar a identificar el modelo), eso ayudaría a evitar el problema. [[Puede que no necesite una submuestra muy grande para elegir entre los modelos].

Si la gamma es adecuada, la dispersión no debería cambiar mucho, pero si la dispersión sigue aumentando a medida que se avanza de izquierda a derecha, la gaussiana inversa podría capturar mejor la varianza.

Además, la distribución condicional de la gamma debe ser algo sesgada a la izquierda (aunque puede ser casi simétrica), mientras que la gaussiana inversa será sesgada a la derecha.

He aquí un ejemplo en el que no se aprecia necesariamente en el gráfico de y frente a x, pero se puede ver la diferencia al poner una escala logarítmica en el eje y:

Se puede ver que la gamma tiene una dispersión esencialmente constante y una asimetría (condicionalmente) a la izquierda, mientras que la gaussiana inversa tiene una dispersión creciente y una asimetría (condicionalmente) a la derecha.

(Si la trama parece simétrico con una dispersión constante, tal vez podría considerar una lognormal en su lugar, aunque una gamma también debería funcionar bastante bien).

La elección del enlace debe estar relacionada con cómo espera que funcione la relación entre la media de la respuesta y las variables independientes (variables predictoras) (preferiblemente a partir de la teoría o de un conocimiento práctico del proceso). Sin embargo, si hace un gráfico como el anterior, debería esperar ver una línea recta (pero, de nuevo, múltiples predictores pueden conspirar para interferir con esta valoración; puede que sea mejor mirar los residuos de ese ajuste logarítmico lineal que he mencionado antes).

Respondido el 5 de Octubre, 2016 por AdamSane (1825 Puntos )

Qué familia glm para datos positivos continuos

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Qué familia glm para datos positivos continuos

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: