Hm, se necesita mucho más que esas tres condiciones para que el MLE sea consistente.
La función de probabilidad logarítmica L(X,θ) (si estoy interpretando correctamente su notación) es una función aleatoria de los datos X . Su condición 2) dice que la familia de todas las realizaciones posibles de esta función aleatoria {L(x,θ)}x∈X separa los puntos en su espacio de parámetros Θ . En otras palabras, la función de log-verosimilitud puede distinguir los diferentes parámetros. Por lo tanto, la identificación de los parámetros a través de MLE al menos tiene sentido.
¿Cómo va la MLE? Se toma una realización de L(X,θ) , encuentra el argmax, y esa es tu estimación. Sólo para la parte de la estimación, es bueno tener L(X,θ) diferenciable. Ahí es donde entra el 3). Sólo se puede hablar de diferenciabilidad en conjuntos abiertos.
Hasta ahora, esto es sólo poner los puntos sobre las íes. Nada de esto hace que la MLE se acerque a la coherencia. Para conseguir consistencia, se necesita L(x,θ,n) convergen, uniformemente sobre Θ en probabilidad a una función no aleatoria que se maximiza en el parámetro verdadero θ0 .
Si se divide la log-verosimilitud por el tamaño de la muestra n se ve que esta función no aleatoria debería ser naturalmente la divergencia de Kullback-Liebler.
Para acercarse uniformemente a la divergencia KL, se necesita que el teorema de convergencia dominada de Lebesgue sea aplicable a L(x,θ) en un pequeño barrio Nθ de θ . A grandes rasgos, esto dice que si L(x,θ) no cambia demasiado en Nθ para cada x entonces se puede acotar uniformemente el cambio de L(x,θ) sobre un conjunto de x con una probabilidad cercana a 1 . Esta es la condición más importante.