Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js

37 votos

¿Por qué la regresión Beta/Dirichlet no se considera un modelo lineal generalizado?

La premisa es esta cita de la viñeta del paquete R betareg 1 .

Además, el modelo comparte algunas propiedades (como la linealidad predictor, función de enlace, parámetro de dispersión) con el generalizados (GLMs; McCullagh y Nelder 1989), pero no es un caso especial de este marco (ni siquiera para la dispersión fija)

Esta respuesta también hace alusión al hecho:

[...] Este es un tipo de modelo de regresión que es apropiado cuando el variable de respuesta se distribuye como Beta. Se puede pensar en él como análogo a un modelo lineal generalizado. Es exactamente lo que está buscando [...] (el énfasis es mío)

El título de la pregunta lo dice todo: ¿por qué la regresión Beta/Dirichlet no se consideran modelos lineales generalizados (no lo son)?


Hasta donde yo sé, el Modelo Lineal Generalizado define modelos construidos sobre la expectativa de sus variables dependientes condicionadas a las independientes.

f es la función de enlace que mapea la expectativa, g es una distribución de probabilidad, Y los resultados y X los predictores, β son parámetros lineales y σ2 de la varianza.

f(E(YX))g(βX,Iσ2)

Diferentes GLMs imponen (o relajan) la relación entre la media y la varianza, pero g debe ser una distribución de probabilidad de la familia exponencial, una propiedad deseable que debería mejorar la robustez de la estimación si no recuerdo mal. Sin embargo, las distribuciones Beta y Dirichlet forman parte de la familia exponencial, así que me he quedado sin ideas.


[1] Cribari-Neto, F., & Zeileis, A. (2009). Regresión beta en R.

2 votos

(+1) Relacionado: stats.stackexchange.com/a/189196 .

0 votos

@amoeba Gracias por el enlace, no había visto esa pregunta.

2 votos

I piense en la cuestión es que mientras que si se escribe la distribución beta con la norma a , b parámetros (por ejemplo a=b=1 implica uniforme(0,1)), entonces la distribución beta está en la familia exponencial, si se escribe en términos de μ (media) y ϕ (dispersión), no lo es. Pero nunca me ha importado tanto si una distribución es de la familia exponencial.

25voto

Dipstick Puntos 4869

Compruebe la referencia original:

Ferrari, S., y Cribari-Neto, F. (2004). Regresión beta para la modelización tasas y proporciones. Journal of Applied Statistics, 31(7), 799-815.

como señalan los autores, los parámetros de la distribución beta re-parametrizada están correlacionados, por lo que

Tenga en cuenta que los parámetros β y ϕ no son ortogonales, en a diferencia de lo que se verifica en la clase de modelos de regresión lineal generalizada modelos de regresión generalizada (McCullagh y Nelder, 1989).

Por lo tanto, aunque el modelo parece un MLG y grazna como un MLG, no se ajusta perfectamente al marco.

0 votos

Interesante, intentaré seguir esa demostración, y si no hay más aclaraciones, y nadie publica nuevas respuestas, aceptaré las tuyas. ¡Gracias por el aporte!

7 votos

+1 pero sería genial tener una respuesta más detallada. Yo, personalmente, no entiendo la cita (incluso después de abrir el documento enlazado). ¿Por qué estos parámetros no son ortogonales en la regresión beta? ¿Por qué se requiere esto para los GLMs? Etc.

3 votos

@amoeba sinceramente, no soy el tipo de persona que puede darte una respuesta detallada sobre eso. Nunca me interesó tanto la teoría detrás de los MLG como para tener una comprensión lo suficientemente profunda de tales sutilezas. McCullagh y Nelder mencionan este requisito, pero tendría que consultar su libro para ver por qué es importante exactamente. Si alguien puede dar una explicación detallada de por qué esto es un problema, consideraría la posibilidad de emitir una recompensa por dicha respuesta.

9voto

user164061 Puntos 281

La respuesta de @probabilityislogic va por buen camino.

La distribución beta está en el familia exponencial de dos parámetros . Los modelos GLM simples descritos por Nelder y Wedderburn (1972) no incluyen todas las distribuciones de la familia exponencial de dos parámetros.

En términos del artículo de N&W, el GLM se aplica a las funciones de densidad del siguiente tipo (posteriormente se denominó familia de dispersión exponencial en Jørgensen 1987 ):

π(z;θ,ϕ)=exp[α(ϕ){zθg(θ)+h(z)}+β(ϕ,z)]

con una función de enlace adicional f() y el modelo lineal para el parámetro natural θ=f(μ)=f(Xβ) .


Así que podríamos reescribir la distribución anterior también:

π(z;μ,ϕ)=exp[z(f(μ)α(ϕ))+h(z)α(ϕ)g(f(μ))α(ϕ)+β(ϕ,z)]

La familia exponencial de dos parámetros es:

f(z;θ1,θ2)=exp[T1(z)η1(θ1,θ2)+T2(z)η2(θ1,θ2)g(θ1,θ2)+h(z)]

que parece similar pero más general (también si uno de los θ es constante).


La diferencia es clara, y además poner la distribución beta en forma de GLM no es posible.

Sin embargo, carezco de conocimientos suficientes para crear una respuesta más intuitiva y bien informada (tengo la sensación de que puede haber relaciones mucho más profundas y elegantes con una variedad de principios fundamentales). El MLG generaliza la distribución del error utilizando una única variable modelo de dispersión exponencial en lugar de un modelo de mínimos cuadrados y generaliza la relación lineal en la media, utilizando una función de enlace.

La mejor y más sencilla intuición parece ser la dispersión. α(ϕ) -en la exponencial, que se multiplica con todo y así la dispersión no varía con θ . Mientras que varias familias exponenciales de dos parámetros, y los métodos de cuasi-verosimilitud, permiten que el parámetro de dispersión sea una función de θ también.

3voto

patfla Puntos 1

No creo que la distribución beta sea parte de la familia de dispersión exponencial . Para conseguirlo, hay que tener una densidad

f(y;θ,τ)=exp(yθc(θ)τ+d(y,τ))

para funciones específicas c() y d() . La media viene dada por c(θ) y la varianza viene dada por τc . El parámetro \theta se denomina parámetro canónico.

La distribución beta no se puede escribir de esta manera - una forma de ver esto es observando que no hay y término en el logaritmo de la probabilidad - tiene \log [y] y \log [1-y] en cambio

f_{beta}(y;\mu,\phi)=\exp\left (\phi\mu\log\left[\frac {y}{1-y}\right] +\phi\log [1-y] - \log [B (\phi\mu,\phi (1-\mu)]-\log\left[\frac {y}{1-y}\right]\right)

Otra forma de ver que beta no es una familia de dispersión exponencial es que puede escribirse como y=\frac {x}{x+z} donde x y z son independientes y ambas siguen distribuciones gamma con el mismo parámetro de escala (y la gamma es de familia exponencial).

2 votos

Esta respuesta no es correcta tal y como está escrita. Una forma de ver esto es que, según la lógica presentada, las distribuciones Bernoulli y binomial, por ejemplo, tampoco estarían en la clase de familias exponenciales.

0 votos

@cardinal. Sí lo son - para bernoulli, \theta es el logaritmo del parámetro de probabilidad, \tau=1 y tenemos la función c (\theta)=\log\left [1+\exp(\theta)\right] y d ()=0 Y la binomial es sólo copias iid de bernoulli desde la perspectiva del ajuste del modelo - el factor combinatorio no altera las estimaciones de los parámetros o los intervalos de confianza de glm.

0 votos

Puede incluir el binomio explícitamente como proporción donde y es la proporción de éxitos. Entonces los cambios son \tau=\frac {1}{n} ( n es el número de ensayos) y d (y,\tau)=\log\left [{\tau^{-1} \choose y\tau^{-1}}\right]

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X