7 votos

¿Cómo encontrar las estimaciones de máxima verosimilitud de un parámetro * entero *?

enter image description hereSi alguien pudiera me dirige a la solución del siguiente problema sería genial.

H. W Pregunta:

$x_1$,$x_2$,...,$x_n$ son de Gauss variables independientes con con una media de $\mu$ y la varianza $\sigma^2$.

$y$ es la suma de estos $N$ variables aleatorias -> $y = \sum_{n=1} ^{N} {x_n}$

$N$ es desconocido.

Estamos interesados en la estimación de $N$ de $y$.

una. dado $N_{1}{estimated} = y/\mu$ determinar su sesgo y la varianza.

b. dado $N_{2}{estimated} = y^2/\sigma^2$ determinar su sesgo y la varianza.

Ignorando el requisito de que N sea un entero

c. Hay un estimador eficiente (ver tanto $\mu = 0$ e $\mu != 0$)

d. Encontrar el máximo de probabilidad de la estimación de N de año.

e. Encontrar CRLB de N de año.

f. ¿El error cuadrático medio de los estimadores $N_{1}{estimated}, N_{2}{estimated}$ obtener CRLB cuando $N->\inf$

Gracias,

Nadav

11voto

jldugger Puntos 7490

Comenzó bien al escribir una expresión para la probabilidad. Es más fácil reconocer que $Y,$ siendo la suma de $N$ independientes Normal$(\mu,\sigma^2)$ variables, tiene una distribución Normal con una media de $N\mu$ y la varianza $N\sigma^2,$ donde su probabilidad es

$$\mathcal{L}(y,N) = \frac{1}{\sqrt{2\pi N\sigma^2}} \exp\left(-\frac{(y-N\mu)^2}{2N\sigma^2}\right).$$

Let's work with its negative logarithm $\Lambda = -\log \mathcal{L},$ whose minima correspond to maxima of the likelihood:

$$2\Lambda(N) = \log(2\pi) + \log(\sigma^2) + \log(N) + \frac{(y-N\mu)^2}{N\sigma^2}.$$

We need to find all whole numbers that minimize this expression. Pretend for a moment that $N$ could be any positive real number. As such, $2\Lambda$ is a continuously differentiable function of $N$ with derivative

$$\frac{d}{dN} 2\Lambda(N) = \frac{1}{N} - \frac{(y-N\mu)^2}{\sigma^2N^2} - \frac{2\mu(y-N\mu)}{N\sigma^2}.$$

Equate this to zero to look for critical points, clear the denominators, and do a little algebra to simplify the result, giving

$$\mu^2 N^2 + \sigma^2 N -y^2 = 0\tag{1}$$

with a unique positive solution (when $\mu\ne 0$)

$$\hat N = \frac{1}{2\mu^2}\left(-\sigma^2 + \sqrt{\sigma^4 + 4\mu^2 y^2}\right).$$

It's straightforward to check that as $N$ approaches $0$ or grows large, $2\Lambda(N)$ grows large, so we know there's no global minimum near $N\aprox 0$ nor near $N\approx \infty.$ That leaves just the one critical point we found, which therefore must be the global minimum. Moreover, $2\Lambda$ must decrease as $\hat N$ es abordado desde abajo o desde arriba. Por lo tanto,

Los mínimos globales de $\Lambda$ debe estar entre los dos enteros a cada lado de la $\hat N.$

Esto le da un procedimiento eficaz para encontrar el estimador de Máxima Verosimilitud: es el piso o el techo de $\hat N$ (o, en ocasiones, tanto de ellos!), para calcular $\hat N$ y simplemente elegir cuál de estos números enteros hace que $2\Lambda$ más pequeño.

Hagamos una pausa para comprobar que este resultado tiene sentido. En dos situaciones, hay una solución intuitiva:

  1. Cuando $\mu$ es mucho mayor que $\sigma$, $Y$ va a estar cerca de $\mu,$ donde un decente estimación de $N$ simplemente se $|Y/\mu|.$ En tales casos, podemos aproximar la MLE por descuidar $\sigma^2,$ dar (como se esperaba) $$\hat N = \frac{1}{2\mu^2}\left(-\sigma^2 + \sqrt{\sigma^4 + 4\mu^2 y^2}\right) \approx \frac{1}{2\mu^2}\sqrt{4\mu^2 y^2} = \left|\frac{y}{\mu}\right|.$$

  2. Cuando $\sigma$ es mucho mayor que $\mu,$ $Y$ podría ser difundido por todo el lugar, pero , en promedio, $Y^2$ debe estar cerca de la $\sigma^2,$ donde una intuitiva estimación de $N$ simplemente se $y^2/\sigma^2.$ , de Hecho, descuidando $\mu$ en la ecuación de $(1)$ da la solución que se esperaba $$\hat N \approx \frac{y^2}{\sigma^2}.$$

En ambos casos, el MLE concuerda con la intuición, lo que indica probablemente hemos trabajado correctamente. La interesante situación, entonces, se producen cuando $\mu$ e $\sigma$ son de tamaños comparables. La intuición puede ser de poca ayuda aquí.


Para explorar más a fondo, me simulado tres situaciones en las que $\sigma/\mu$ es $1/3,$ $1,$ o $3.$ no importa lo $\mu$ es (tan largo como es distinto de cero), así que me tomé $\mu=1.$ En cada situación que me generó un aleatorios $Y$ de los casos $N=2,4,8,16,$ hacer esto de forma independiente a cinco mil veces.

Estos histogramas resumen de la Emv de $N$. Las líneas verticales de la marca de los verdaderos valores de $N$.

Figure

En promedio, el MLE parece ser correcto. Cuando $\sigma$ es relativamente pequeño, el MLE tiende a ser exacto: que es lo que el estrecho histogramas en la fila superior indica. Cuando $\sigma \approx |\mu|,$ el MLE es bastante incierto. Cuando $\sigma \gg |\mu|,$ el MLE a menudo puede ser $\hat N=1$ y a veces puede ser varias veces $N$ (especialmente cuando se $N$ es pequeña). Estas observaciones concuerdan con lo que se predijo en el anterior análisis intuitivo.


La clave para la simulación es implementar el MLE. Se requiere de la resolución de $(1)$ así como la evaluación de $\Lambda$ para valores dados de $Y,$ $\mu,$ e $\sigma.$ La única idea nueva reflejado aquí es la comprobación de los números enteros en cualquiera de los lados de $\hat N.$ Las dos últimas líneas de la función f llevar a cabo este cálculo, con la ayuda de lambda de evaluar el registro de la probabilidad.

lambda <- Vectorize(function(y, N, mu, sigma) {
  (log(N) + (y-mu*N)^2 / (N * sigma^2))/2
}, "N") # The negative log likelihood (without additive constant terms)

f <- function(y, mu, sigma) {
  if (mu==0) {
    N.hat <- y^2 / sigma^2
  } else {
    N.hat <- (sqrt(sigma^4 + 4*mu^2*y^2) - sigma^2) / (2*mu^2)
  }
  N.hat <- c(floor(N.hat), ceiling(N.hat))
  q <- lambda(y, N.hat, mu, sigma)
  N.hat[which.min(q)]
} # The ML estimator

5voto

Aaron Puntos 36

El método whuber ha utilizado en su excelente respuesta es un común optimización "truco" que implica extender la probabilidad de función para permitir a los valores reales de $N$, y, a continuación, utilizando la concavidad de la log-verosimilitud para mostrar que el discretos maximización de valor es uno de los valores discretos en cualquiera de los lados de un continuo optima. Este es un método comúnmente utilizado en discretos MLE de los problemas que implican cóncava de la función de verosimilitud logarítmica. Su valor radica en el hecho de que por lo general es posible obtener una simple forma cerrada de expresión para el continuo optima.

La integridad, en esta respuesta voy a mostrar un método alternativo, que usa el cálculo discreto mediante el avance de diferencia de operador. La función de verosimilitud logarítmica para este problema es la función discreta:

$$\ell_y(N) = -\frac{1}{2} \Bigg[ \ln (2 \pi) + \ln (\sigma^2) + \ln (N) + \frac{(y-N\mu)^2}{N\sigma^2} \Bigg] \quad \quad \quad \text{para } N \in \mathbb{N}.$$

The first forward-difference of the log-likelihood is:

$$\begin{equation} \begin{aligned} \Delta \ell_y(N) &= -\frac{1}{2} \Bigg[ \ln (N+1) - \ln (N) + \frac{(y-N\mu - \mu)^2}{(N+1)\sigma^2} - \frac{(y-N\mu)^2}{N\sigma^2} \Bigg] \\[6pt] &= -\frac{1}{2} \Bigg[ \ln \Big( \frac{N+1}{N} \Big) + \frac{N(y-N\mu - \mu)^2 - (N+1)(y-N\mu)^2}{N(N+1)\sigma^2} \Bigg] \\[6pt] &= -\frac{1}{2} \Bigg[ \ln \Big( \frac{N+1}{N} \Big) + \frac{[N(y-N\mu)^2 -2N(y-N\mu) \mu + N \mu^2] - [N(y-N\mu)^2 + (y-N\mu)^2]}{N(N+1)\sigma^2} \Bigg] \\[6pt] &= -\frac{1}{2} \Bigg[ \ln \Big( \frac{N+1}{N} \Big) - \frac{(y + N \mu)(y-N\mu) - N \mu^2}{N(N+1)\sigma^2} \Bigg]. \\[6pt] \end{aligned} \end{equation}$$

With a bit of algebra, the second forward-difference can be shown to be:

$$\begin{equation} \begin{aligned} \Delta^2 \ell_y(N) &= -\frac{1}{2} \Bigg[ \ln \Big( \frac{N+2}{N} \Big) + \frac{2 N (N+1) \mu^2 + 2(y + N \mu)(y-N\mu)}{N(N+1)(N+2)\sigma^2} \Bigg] < 0. \\[6pt] \end{aligned} \end{equation}$$

This shows that the log-likelihood function is concave, so its smallest maximising point $\hat{N}$ will be:

$$\begin{equation} \begin{aligned} \hat{N} &= \min \{ N \in \mathbb{N} | \Delta \ell_y(N) \leqslant 0 \} \\[6pt] &= \min \Big\{ N \in \mathbb{N} \Big| \ln \Big( \frac{N+1}{N} \Big) \geqslant \frac{(y + N \mu)(y-N\mu) - N \mu^2}{N(N+1)\sigma^2} \Big\}. \end{aligned} \end{equation}$$

(The next value will also be a maximising point if and only if $\Delta \ell_y(\hat{N}) = 0$.) El MLE (el más pequeño, o el conjunto) puede ser programada como una función a través de una simple while de bucle, y este debe ser capaz de darle la solución muy rápidamente. Voy a dejar la programación como parte de un ejercicio.

1voto

manku Puntos 111

Comentario: he Aquí una breve simulación en R $\mu = 50, \sigma = 3,$ la cual debe ser precisa para 2 o tres lugares, la aproximación de las la media y la desviación estándar de $Y.$ Usted debería ser capaz de encontrar $E(Y)$ e $Var(Y)$ por elemental métodos analíticos como indiqué en mi anterior Comentario. Si tuviéramos $N = 100$ entonces $E(\hat N)$ parece imparcial para $N.$

N = 100;  mu = 50;  sg = 3
y = replicate( 10^6, sum(rnorm(N, mu, sg))/mu )
mean(y);  sd(y)
[1] 99.99997
[1] 0.6001208
N.est = round(y);  mean(N.est);  sd(N.est)
[1] 99.9998
[1] 0.6649131

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X