20 votos

¿Está garantizada la convergencia a máximos globales de la logverosimilitud en el MLG?

Mis preguntas son:

  1. ¿Está garantizado que los modelos lineales generalizados (MLG) convergen a un máximo global? En caso afirmativo, ¿por qué?
  2. Además, ¿qué restricciones se aplican a la función de enlace para garantizar la convexidad?

Según tengo entendido, los MLG maximizan una función de verosimilitud altamente no lineal. Por lo tanto, me imagino que hay varios máximos locales y el conjunto de parámetros que convergen a depende de las condiciones iniciales para el algoritmo de optimización. Sin embargo, después de investigar un poco, no he encontrado ninguna fuente que indique que existen varios máximos locales. Además, no estoy muy familiarizado con las técnicas de optimización, pero sé que el método Newton-Raphson y el algoritmo IRLS son muy propensos a los máximos locales.

Por favor, explíquelo si es posible tanto sobre una base intuitiva como matemática.

EDIT: dksahuji respondió a mi pregunta original, pero quiero añadir la pregunta de seguimiento [ 2 ] arriba. ("¿Qué restricciones hay en la función de enlace para asegurar la convexidad?")

18voto

Antoine Puntos 1041

La definición de familia exponencial es:

$$ p(x|\theta) = h(x)\exp(\theta^T\phi(x) - A(\theta)), $$

donde $A(\theta)$ es la función de partición logarítmica. Ahora se puede demostrar que las tres cosas siguientes se mantienen para el caso 1D (y se generalizan a dimensiones más altas - usted puede mirar en las propiedades de las familias exponenciales o partición logarítmica):

  1. $ \frac{dA}{d\theta} = \mathbb{E}[\phi(x)]$

  2. $ \frac{d^2A}{d\theta^2} = \mathbb{E}[\phi^2(x)] -\mathbb{E}[\phi(x)]^2 = {\rm var}(\phi(x)) $

  3. $ \frac{ \partial ^2A}{\partial\theta_i\partial\theta_j} = \mathbb{E}[\phi_i(x)\phi_j(x)] -\mathbb{E}[\phi_i(x)] \mathbb{E}[\phi_j(x)] = {\rm cov}(\phi(x)) \Rightarrow \Delta^2A(\theta) = {\rm cov}(\phi(x))$

El resultado anterior demuestra que $A(\theta)$ es convexo (como ${\rm cov}(\phi(x))$ es semidefinida positiva). Ahora echamos un vistazo a la función de verosimilitud para MLE:

\begin{align} p(\mathcal{D}|\theta) &= \bigg[\prod_{i=1}^{N}{h(x_i)}\bigg]\ \exp\!\big(\theta^T[\sum_{i=1}^{N}\phi(x_i)] - NA(\theta)\big) \\ \log\!\big(p(\mathcal{D}|\theta)\big) &= \theta^T\bigg[\sum_{i=1}^{N}\phi(x_i)\bigg] - NA(\theta) \\ &= \theta^T[\phi(\mathcal{D})] - NA(\theta) \end{align}

Ahora $\theta^T[\phi(\mathcal{D})]$ es lineal en theta y $-A(\theta)$ es cóncava. Por lo tanto, existe un único máximo global.

Existe una versión generalizada denominada familia exponencial curva que también sería similar. Pero la mayoría de las pruebas son en forma canónica.

6voto

Anosen Puntos 1

Estuve investigando mucho sobre esto durante mi tesis. La respuesta es que la verosimilitud del MLG no siempre es convexa, sólo lo es bajo los supuestos adecuados. Nelder y Wedderburn hicieron una muy buena investigación al respecto en su artículo "Sobre la existencia y unicidad de las estimaciones de máxima verosimilitud para ciertos modelos lineales generalizados" que puede consultarse en https://www.jstor.org/stable/2335080

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X