19 votos

¿Cuál es el mejor de máxima verosimilitud o probabilidad marginal y por qué?

Mientras se realiza la regresión si nos guiamos por la definición de: ¿Cuál es la diferencia entre un parcial de probabilidad, perfil de probabilidad y probabilidad marginal?

que, de Máxima Verosimilitud
Encontrar β y q que maximiza L(β, θ|datos).

Mientras, La Probabilidad Marginal
Integramos a cabo θ de la probabilidad de la ecuación explotando el hecho de que podemos identificar la distribución de probabilidad de θ condicional en β.

Cual es la mejor metodología para maximizar y por qué?

18voto

Chris Puntos 806

Cada uno de estos dará resultados diferentes con una interpretación diferente. El primero busca el par $\beta$,$\theta$ que es lo más probable, mientras que el segundo se encuentra el $\beta$ que es (ligeramente) más probable. Imagine que su distribución se parece a esto:

    $\beta=1$$\beta=2$
$\theta=1$0.0 0.2
$\theta=2$0.1 0.2
$\theta=3$0.3 0.2

A continuación, la máxima probabilidad de respuesta es $\beta=1$ ($\theta=3$), mientras que el marginal máxima probabilidad de respuesta es $\beta=2$ (ya que, dejando de lado a más de $\theta$, $P(\beta=2)=0.6$).

Yo diría que, en general, la probabilidad marginal es a menudo lo que usted quiere - si usted realmente no se preocupan por los valores de la $\theta$ parámetros, entonces usted debe contraer sobre ellos. Pero, probablemente, en la práctica, estos métodos no dará resultados muy diferentes - si lo hacen, entonces es posible señalar algunos subyacentes de la inestabilidad en su solución, por ejemplo, de múltiples modos con diferentes combinaciones de $\beta$,$\theta$ que todos dan similares predicciones.

7voto

Charan Puntos 11

Estoy lidiando con esta pregunta a mí mismo ahora. Aquí es un resultado que puede ser útil. Considere el modelo lineal

$$y = X\beta + \epsilon, \quad \epsilon \sim N(0,\sigma^2)$$

donde $y \in \mathbb{R}^n, \beta \in \mathbb{R}^p,$ $\beta$ $\sigma^2$ son los parámetros de interés. La probabilidad conjunta es

$$L(\beta,\sigma^2) = (2 \pi \sigma^2)^{-n/2} exp\left(-\frac{||y-X\beta||^2}{2\sigma^2}\right)$$

La optimización de la articulación de probabilidad de los rendimientos de

$$\hat{\beta} = X^+ y$$

$$\hat{\sigma}^2 = \frac{1}{n}||r||^2$$

donde $X^+$ es el pseudoinverse de $X$ $r=y-X\hat{\beta}$ es el ajuste residual vector. Tenga en cuenta que a $\hat{\sigma}^2$ tenemos $1/n$, en lugar del familiar grados de libertad corregidos relación $1/(n-p)$. Este estimador es conocido por ser sesgada en lo finito en caso de ejemplo.

Ahora supongamos que en vez de optimizar tanto $\beta$$\sigma^2$, integramos $\beta$ y la estimación de $\sigma^2$ a partir de la resultante integrado de probabilidad:

$$\hat{\sigma}^2 = \text{max}_{\sigma^2} \int_{\mathbb{R}^p} L(\beta,\sigma^2) d\beta$$

El uso elemental de álgebra lineal y el Gaussiano integral de la fórmula, se puede mostrar que

$$\hat{\sigma}^2 = \frac{1}{n-p} ||r||^2$$

Este tiene los grados de libertad de la corrección que hace que sea imparcial y, en general favorecido por encima de la articulación ML estimación.

A partir de este resultado se podría preguntar si hay algo inherentemente ventajoso sobre el integrado de probabilidad, pero no sé de ninguna de resultados generales que responder a esa pregunta. El consenso parece ser que integran ML es mejor en la contabilidad de la incertidumbre en la mayoría de los problemas de estimación. En particular, si usted está en la estimación de una cantidad que depende de otras estimaciones de los parámetros (incluso implícitamente), entonces la integración sobre los otros parámetros mejor cuenta de sus incertidumbres.

4voto

WinWin Puntos 395

Esto normalmente no es una cuestión de elección. Si estamos interesados en la estimación de $\beta$ (por ejemplo, cuando se $\beta$ es un modelo hyperparameter y $\theta$ es una variable latente) y no hay un solo valor de $\theta$ y en lugar de la distribución de $\theta$ conocidos, necesitamos integrar a cabo $\theta$. Usted puede pensar marginales de la probabilidad como un promedio ponderado de la probabilidad para diferentes valores de $\theta_i$ ponderado por su densidad de probabilidad $p(\theta_i)$. Ahora que $\theta$ ha desaparecido, el uso de muestras de formación como $data$, se puede optimizar la marginal de probabilidad w.r.t. $\beta$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X