6 votos

¿Está MLE intrínsecamente conectado a los registros?

Mi matemático exploración me llevó a la siguiente afirmación:

Reclamo: MLE es, fundamentalmente relacionadas con los registros (y KL divergencia, que también utiliza los registros). No es correcto decir de registro se muestra simplemente para hacer las matemáticas más simples o de cálculos numéricos más estable. Hay una inextricable teórico de la conexión entre los registros y el MLE.

¿Es esto cierto? Llegué a esta conclusión cuando yo estaba tratando de justificar la forma en que se podría haber descubierto el MLE y demostrado su consistencia en el contexto de los grandes IID muestras:

El mundo real tira de la variable aleatoria $X_{\tilde \theta}$. No sabemos $X_{\tilde \theta}$, pero nos hacen suponer que pertenece a la familia de distribuciones $\{P(\theta) : \theta \in S\}$. Denotar sus archivos Pdf como $f_\theta(x)$.

Supongamos por observar el mundo, hemos construido una muy buena estimación de la $f_{\tilde\theta}$. No sabemos $\tilde \theta$ ; la estimación de la función es una caja negra.

Tal vez nuestro objetivo es identificar las $\tilde \theta$. Esto funciona al $\theta$ es de identificación personal con respecto a $P(\theta)$, es decir, la asignación de $\theta \mapsto f_\theta$ es inyectiva. O quizás $\theta$ no es necesariamente identificable, pero nuestro objetivo es elegir la mejor densidad de $f_\theta$ de nuestra familia para describir nuestros datos.

De cualquier manera, queremos minimizar la distancia entre las funciones de $f_{\tilde \theta}$ e $f_{\theta}$.

Cómo se define la distancia entre las funciones, aunque? Una forma es el peso de cada $x$ por con qué frecuencia ocurre, es decir, $f_{\tilde \theta}(x)$. Por lo tanto, nos encontramos con la $\theta$ minimizar $\int_{-\infty}^{\infty} f_{\tilde \theta}(x) \times \left[ f_{\tilde\theta}(x) - f_{\theta}(x) \right] = \mathbb{E}\, \left[f_{\tilde \theta}(X_{\tilde \theta}) - f_{\theta}(X_{\tilde \theta}) \right]$.

Desde que el primer término es constante, y el segundo tiene un signo menos delante de ella, podemos encontrar la $\theta$ que minimiza la expresión anterior por la simple maximización de $\mathbb{E}\, f_\theta(X_{\tilde\theta})$. Esta es la razón de ser de la 'verdadera' de probabilidad de la función de $Li(\theta) = \mathbb{E}\, f_\theta(X_{\tilde\theta})$.

Por supuesto, en el mundo real, no tenemos acceso a $f_{\tilde \theta}$ directamente. Sin embargo, se puede observar $\tilde x_1, \ldots, \tilde x_n$. Por alguna ley de los grandes números, $\text{avg}_i f_\theta(\tilde X_i) \to \mathbb{E}\, f_\theta(X_{\tilde \theta})$ en la probabilidad, donde $\tilde X_i \stackrel{\text{i.i.d.}}{\sim} P(\tilde \theta)$.

Por lo tanto, podemos concluir dejando que nuestros $\hat\theta = \text{argmax}_\theta\, \sum_i f_\theta(\tilde x_i)$ encontrar una estimación consistente de $\tilde \theta$.

Uh oh! Que no MLE. La suma en la expresión anterior debe ser un producto. Sin embargo, si vuelvo "Cómo definir la distancia entre las funciones de" la parte y el uso KL divergencia en lugar de mi función de distancia basado en la ponderación de cada punto por cómo de probable es, luego me sale

Debemos minimizar

$$ KL(f_{\tilde \theta}, f_\theta) = \int_{-\infty}^{\infty} f_{\tilde\theta}(x) \left[ \log f_{\tilde\theta}(x) - \log f_\theta(x) \right] \, dx $$

que es equivalente a la maximización de la $\mathbb{E}\, \log f_\theta(X_{\tilde \theta})$, que por alguna ley de los grandes números puede ser aproximada con $\text{avg}\, \log f_\theta(\tilde x_i)$, lo cual es equivalente a la maximización de la $\prod_i f_\theta(\tilde x_i) = f_\theta(\mathbf{\tilde x})$.

El de arriba es en realidad el MLE. Y maximizar el producto de la $f_\theta$ de cada muestra tiene mucho más sentido que la maximización de la suma.

  1. He encontrado una diferente estimador de que no es el mismo que el MLE, o tengo algún error?
  2. Si el anterior, es que el estimador de bueno? Lo que hace que la divergencia KL una mejor función de distancia de aquí?
  3. ¿Mi reclamación al principio de esta pregunta acerca de la conexión intrínseca entre el MLE y registro de retención de agua?

4voto

F. Hauri Puntos 663

La respuesta a tu pregunta principal puede ser sí o no, dependiendo de la perspectiva.

En primer lugar, el principio de máxima verosimilitud puede ser motivado sin ningún tipo de registros. En contraste con su enfoque, es necesario comenzar con la probabilidad de que una muestra de tamaño $n$ en lugar de la $n$ probabilidades de $n$ de las muestras. Hay una razón por la que no es el registro de probabilidad de principio - a partir de un cierto punto de vista, la probabilidad es más fundamental que su registro, y tomando el logaritmo de un producto es simplemente una conveniencia matemática. O uno podría decir que el alcoholímetro suposición conduce a los productos, y los productos de conducir a los registros.

Pero luego hay varias teorías que generalizar el ml principio y en el que el ml principio corresponde a la de registro (o alguna variante como la divergencia KL). Más en particular, hay diferentes clases de otras divergencias (Renyi, Bregman, ...) que pueden ser utilizados para la inferencia y que conducen a la constante de los estimadores, y también hay información de la geometría. No sé si hay una divergencia que corresponde a su propuesta de aditivo variante, sin embargo.

Uno de los puntos que señala la probabilidad y el KL es el Lema de Neyman-Pearson. Otro punto es la derivación de la ml principio sin pérdida mencionado al principio de mi respuesta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X