Mi matemático exploración me llevó a la siguiente afirmación:
Reclamo: MLE es, fundamentalmente relacionadas con los registros (y KL divergencia, que también utiliza los registros). No es correcto decir de registro se muestra simplemente para hacer las matemáticas más simples o de cálculos numéricos más estable. Hay una inextricable teórico de la conexión entre los registros y el MLE.
¿Es esto cierto? Llegué a esta conclusión cuando yo estaba tratando de justificar la forma en que se podría haber descubierto el MLE y demostrado su consistencia en el contexto de los grandes IID muestras:
El mundo real tira de la variable aleatoria X˜θ. No sabemos X˜θ, pero nos hacen suponer que pertenece a la familia de distribuciones {P(θ):θ∈S}. Denotar sus archivos Pdf como fθ(x).
Supongamos por observar el mundo, hemos construido una muy buena estimación de la f˜θ. No sabemos ˜θ ; la estimación de la función es una caja negra.
Tal vez nuestro objetivo es identificar las ˜θ. Esto funciona al θ es de identificación personal con respecto a P(θ), es decir, la asignación de θ↦fθ es inyectiva. O quizás θ no es necesariamente identificable, pero nuestro objetivo es elegir la mejor densidad de fθ de nuestra familia para describir nuestros datos.
De cualquier manera, queremos minimizar la distancia entre las funciones de f˜θ e fθ.
Cómo se define la distancia entre las funciones, aunque? Una forma es el peso de cada x por con qué frecuencia ocurre, es decir, f˜θ(x). Por lo tanto, nos encontramos con la θ minimizar ∫∞−∞f˜θ(x)×[f˜θ(x)−fθ(x)]=E[f˜θ(X˜θ)−fθ(X˜θ)].
Desde que el primer término es constante, y el segundo tiene un signo menos delante de ella, podemos encontrar la θ que minimiza la expresión anterior por la simple maximización de Efθ(X˜θ). Esta es la razón de ser de la 'verdadera' de probabilidad de la función de Li(θ)=Efθ(X˜θ).
Por supuesto, en el mundo real, no tenemos acceso a f˜θ directamente. Sin embargo, se puede observar ˜x1,…,˜xn. Por alguna ley de los grandes números, avgifθ(˜Xi)→Efθ(X˜θ) en la probabilidad, donde ˜Xii.i.d.∼P(˜θ).
Por lo tanto, podemos concluir dejando que nuestros ˆθ=argmaxθ∑ifθ(˜xi) encontrar una estimación consistente de ˜θ.
Uh oh! Que no MLE. La suma en la expresión anterior debe ser un producto. Sin embargo, si vuelvo "Cómo definir la distancia entre las funciones de" la parte y el uso KL divergencia en lugar de mi función de distancia basado en la ponderación de cada punto por cómo de probable es, luego me sale
Debemos minimizar
KL(f˜θ,fθ)=∫∞−∞f˜θ(x)[logf˜θ(x)−logfθ(x)]dx
que es equivalente a la maximización de la Elogfθ(X˜θ), que por alguna ley de los grandes números puede ser aproximada con avglogfθ(˜xi), lo cual es equivalente a la maximización de la ∏ifθ(˜xi)=fθ(˜x).
El de arriba es en realidad el MLE. Y maximizar el producto de la fθ de cada muestra tiene mucho más sentido que la maximización de la suma.
- He encontrado una diferente estimador de que no es el mismo que el MLE, o tengo algún error?
- Si el anterior, es que el estimador de bueno? Lo que hace que la divergencia KL una mejor función de distancia de aquí?
- ¿Mi reclamación al principio de esta pregunta acerca de la conexión intrínseca entre el MLE y registro de retención de agua?