Mi matemático exploración me llevó a la siguiente afirmación:
Reclamo: MLE es, fundamentalmente relacionadas con los registros (y KL divergencia, que también utiliza los registros). No es correcto decir de registro se muestra simplemente para hacer las matemáticas más simples o de cálculos numéricos más estable. Hay una inextricable teórico de la conexión entre los registros y el MLE.
¿Es esto cierto? Llegué a esta conclusión cuando yo estaba tratando de justificar la forma en que se podría haber descubierto el MLE y demostrado su consistencia en el contexto de los grandes IID muestras:
El mundo real tira de la variable aleatoria $X_{\tilde \theta}$. No sabemos $X_{\tilde \theta}$, pero nos hacen suponer que pertenece a la familia de distribuciones $\{P(\theta) : \theta \in S\}$. Denotar sus archivos Pdf como $f_\theta(x)$.
Supongamos por observar el mundo, hemos construido una muy buena estimación de la $f_{\tilde\theta}$. No sabemos $\tilde \theta$ ; la estimación de la función es una caja negra.
Tal vez nuestro objetivo es identificar las $\tilde \theta$. Esto funciona al $\theta$ es de identificación personal con respecto a $P(\theta)$, es decir, la asignación de $\theta \mapsto f_\theta$ es inyectiva. O quizás $\theta$ no es necesariamente identificable, pero nuestro objetivo es elegir la mejor densidad de $f_\theta$ de nuestra familia para describir nuestros datos.
De cualquier manera, queremos minimizar la distancia entre las funciones de $f_{\tilde \theta}$ e $f_{\theta}$.
Cómo se define la distancia entre las funciones, aunque? Una forma es el peso de cada $x$ por con qué frecuencia ocurre, es decir, $f_{\tilde \theta}(x)$. Por lo tanto, nos encontramos con la $\theta$ minimizar $\int_{-\infty}^{\infty} f_{\tilde \theta}(x) \times \left[ f_{\tilde\theta}(x) - f_{\theta}(x) \right] = \mathbb{E}\, \left[f_{\tilde \theta}(X_{\tilde \theta}) - f_{\theta}(X_{\tilde \theta}) \right]$.
Desde que el primer término es constante, y el segundo tiene un signo menos delante de ella, podemos encontrar la $\theta$ que minimiza la expresión anterior por la simple maximización de $\mathbb{E}\, f_\theta(X_{\tilde\theta})$. Esta es la razón de ser de la 'verdadera' de probabilidad de la función de $Li(\theta) = \mathbb{E}\, f_\theta(X_{\tilde\theta})$.
Por supuesto, en el mundo real, no tenemos acceso a $f_{\tilde \theta}$ directamente. Sin embargo, se puede observar $\tilde x_1, \ldots, \tilde x_n$. Por alguna ley de los grandes números, $\text{avg}_i f_\theta(\tilde X_i) \to \mathbb{E}\, f_\theta(X_{\tilde \theta})$ en la probabilidad, donde $\tilde X_i \stackrel{\text{i.i.d.}}{\sim} P(\tilde \theta)$.
Por lo tanto, podemos concluir dejando que nuestros $\hat\theta = \text{argmax}_\theta\, \sum_i f_\theta(\tilde x_i)$ encontrar una estimación consistente de $\tilde \theta$.
Uh oh! Que no MLE. La suma en la expresión anterior debe ser un producto. Sin embargo, si vuelvo "Cómo definir la distancia entre las funciones de" la parte y el uso KL divergencia en lugar de mi función de distancia basado en la ponderación de cada punto por cómo de probable es, luego me sale
Debemos minimizar
$$ KL(f_{\tilde \theta}, f_\theta) = \int_{-\infty}^{\infty} f_{\tilde\theta}(x) \left[ \log f_{\tilde\theta}(x) - \log f_\theta(x) \right] \, dx $$
que es equivalente a la maximización de la $\mathbb{E}\, \log f_\theta(X_{\tilde \theta})$, que por alguna ley de los grandes números puede ser aproximada con $\text{avg}\, \log f_\theta(\tilde x_i)$, lo cual es equivalente a la maximización de la $\prod_i f_\theta(\tilde x_i) = f_\theta(\mathbf{\tilde x})$.
El de arriba es en realidad el MLE. Y maximizar el producto de la $f_\theta$ de cada muestra tiene mucho más sentido que la maximización de la suma.
- He encontrado una diferente estimador de que no es el mismo que el MLE, o tengo algún error?
- Si el anterior, es que el estimador de bueno? Lo que hace que la divergencia KL una mejor función de distancia de aquí?
- ¿Mi reclamación al principio de esta pregunta acerca de la conexión intrínseca entre el MLE y registro de retención de agua?