¿Por qué utilizamos el logaritmo natural para la MLE?
Respuestas
¿Demasiados anuncios?La función de verosimilitud es generalmente la relación de dos densidades. Como trabajar con cocientes no es conveniente cuando se toman máximos, normalmente se toman los logaritmos. Esto es más efectivo cuando las densidades implican funciones exponenciales y es extremadamente conveniente en el caso de densidades normales (gaussianas).
Tomar registros no siempre ayuda. De hecho, si las densidades subyacentes son uniformes, los registros empeoran la situación, no la mejoran.
Añadido en base a los comentarios
Digamos que quieres tomar la derivada de la relación $N/D$ para encontrar el máximo. Entonces la derivada sería $\frac{N'D - N D'}{D^2}$ . Esto podría ser difícil de gestionar. Supongamos que $L_N = \log(N)$ y $L_D = \log(D)$ . Entonces, tomando el logaritmo de la relación obtenemos $$ \log\left(\frac{N}{D}\right) = \log(N)-\log(D) = L_N - L_D $$ maximizar una función positiva es lo mismo que maximizar el logaritmo. Así que $$ \log\left(\frac{N}{D}\right)' = = L_N'- L_D' \tag1 $$ Si $L_N$ y $L_D$ son simples, entonces la derivada anterior es más sencilla de trabajar.
Obsérvese que se puede obtener el mismo anser mirando $$ \frac{D}{N} \left(\frac{N}{D}\right)' \tag2 $$ llamado el Derivada logarítmica y se obtiene a partir de (1). No es difícil demostrar que (1) y (2) dan el mismo lado derecho.
Como el logaritmo natural es una función estrictamente creciente, el máximo de la densidad en cuestión será el mismo que el máximo de la transformación del logaritmo natural, siempre que exista. El logaritmo natural simplifica las densidades que implican exponenciales. Además, como las densidades suelen incluir productos, la transformación simplificará todo ese cálculo potencialmente complicado.
A veces no utilizar el tronco (natural o no).
Sobre todo, es una cuestión de comodidad, ya que en muchos casos la toma de registros simplifica la búsqueda del argmax. Sin embargo, resultados como Teorema de Wilks puede hacer que sea más conveniente trabajar con troncos en más situaciones de las que podrían ser aparentes.
Tomar los registros no ayuda tanto a la distribución triangular por ejemplo.
No estoy de acuerdo con la afirmación de Michael de que "Señalar consecuencias triviales como "log convierte el producto en suma..." es muy engañoso".
De hecho, esas consecuencias son precisamente la razón por la que se utilizan los registros cuando se encuentra el MLE para un parámetro. El MLE tiene el valor que tiene para minimizar la divergencia de Kullback-Liebler. Sin embargo, creo que esta pregunta se refería más a por qué utilizamos los registros para encontrar el valor de la MLE. La respuesta a esa pregunta es la que sugieren la mayoría de las respuestas anteriores: la mayoría de las veces, la utilización de logaritmos (que afortunadamente no afectan a la lógica del proceso) facilita el cálculo y el álgebra resultante. Son una conveniencia en este escenario, no una necesidad.