11 votos

¿Cuántas distribuciones hay en el MLG?

He identificado múltiples lugares en los libros de texto donde el GLM se describe con 5 distribuciones (a saber, Gamma, Gausiano, Binomio, Gausiano inverso y Poisson). Esto también se ejemplifica en la función familiar en R.

Ocasionalmente encuentro referencias al GLM donde se incluyen distribuciones adicionales ( ejemplo ). ¿Alguien puede explicar por qué estos 5 son especiales o están siempre en el MLG pero a veces otros lo están?

Por lo que he aprendido hasta ahora, las distribuciones del GLM en la familia exponencial encajan en la forma: $$f(y; \theta , \phi )= \exp\left\ { \frac {y \theta -b( \theta )}{ \phi }+c(y, \phi ) \right\ }$$ donde $ \phi $ es el parámetro de dispersión y $ \theta $ es el parámetro canónico.

¿No se puede transformar ninguna distribución para que quepa en el GLM?

4voto

Xenoactive Puntos 11

Como usted indica, la calificación para utilizar una distribución en un GLM es que sea de la familia exponencial (nota: esto es no lo mismo que la distribución exponencial! Aunque la distribución exponencial, como una distribución gamma, es en sí misma parte de la familia exponencial). Las cinco distribuciones que enumeras son todas de esta familia, y lo que es más importante, son distribuciones MUY comunes, por lo que se utilizan como ejemplos y explicaciones.

Como señala Zhanxiong, la distribución uniforme (con límites desconocidos) es un ejemplo clásico de una distribución familiar no exponencial; como señala shf8888, la distribución uniforme es un caso especial de la distribución beta, pero, de nuevo, ¡la distribución beta (con ambos parámetros desconocidos) tampoco está en la familia exponencial! Otras distribuciones familiares no exponenciales son los modelos de mezcla y la distribución t.

Tienes la definición de la familia exponencial correcta, y el parámetro canónico es muy importante para usar el GLM. Aún así, siempre he encontrado algo más fácil de entender la familia exponencial escribiéndola como:

$$f(x; \theta ) = a( \theta )g(x) \exp\left [b( \theta )R(x) \right ]$$

Hay una forma más general de escribir esto, con un vector $ \boldsymbol { \theta }$ en lugar de un escalar $ \theta $ pero el caso unidimensional explica mucho. Específicamente, debes ser capaz de factorizar la parte no expuesta de tu densidad en dos funciones, una de parámetro desconocido $ \theta $ pero no los datos observados $x$ y uno de $x$ y no $ \theta $ y lo mismo para la parte exponencial. Puede ser difícil ver cómo, por ejemplo, la distribución del binomio puede ser escrita de esta manera; pero con algunos malabares algebraicos, se hace claro eventualmente.

Utilizamos la familia exponencial porque facilita muchas cosas: por ejemplo, encontrar suficientes estadísticas y probar hipótesis. En el GLM, el parámetro canónico se utiliza a menudo para encontrar una función de enlace. Por último, una ilustración relacionada de por qué los estadísticos prefieren utilizar la familia exponencial en casi todos los casos es tratar de hacer cualquier inferencia estadística clásica sobre, digamos, un Uniforme( $ \theta_1 $ , $ \theta_2 $ ) distribución donde ambos $ \theta_1 $ y $ \theta_2 $ son desconocidos. No es imposible, pero es mucho más complicado e implicado que hacer lo mismo para las distribuciones familiares exponenciales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X