En realidad es una comodidad para la loglikelihood, nada más.
Me refiero a la comodidad de las sumas frente a los productos: $\ln (\prod_i x_i) =\sum_i\ln x_i$ Las sumas son más fáciles de tratar en muchos aspectos, como la diferenciación o la integración. No es una conveniencia sólo para familias exponenciales, quiero decir.
Cuando se trata de una muestra aleatoria, las probabilidades son de la forma $\mathrm{L}=\prod_ip_i$ , por lo que la loglikelihood rompería este producto en la suma en su lugar, que es más fácil de manipular y analizar. Ayuda que todo lo que nos importa es el punto del máximo, el valor en el máximo no es importante, se puede aplicar cualquier transformación monótona como el logaritmo.
Sobre la intuición de la curvatura. Al final es básicamente lo mismo que la segunda derivada de la loglikelihood.
ACTUALIZACIÓN: Esto es lo que quería decir sobre la curvatura. Si tienes una función $y=f(x)$ , entonces su curvatura sería ( ver (14) en Wolfram): $$\kappa=\frac{f''(x)}{(1+f'(x)^2)^{3/2}}$$
La segunda derivada del logaritmo de la probabilidad: $$A=(\ln f(x))''=\frac{f''(x)}{f(x)}-\left(\frac{f'(x)}{f(x)}\right)^2$$
En el punto del máximo, la primera derivada es obviamente cero, por lo que obtenemos: $$\kappa_{max}=f''(x_{max})=Af(x_{max})$$ De ahí mi ocurrencia de que la curvatura de la probabilidad y la segunda derivada de la loglikelihood son la misma cosa, más o menos.
Por otra parte, si la primera derivada de la verosimilitud es pequeña no sólo en el punto de máximo sino alrededor de él, es decir, la función de verosimilitud es plana, entonces obtenemos $$\kappa\approx f''(x)\approx A f(x)$$ Ahora la probabilidad plana no es algo bueno para nosotros, porque hace que encontrar el máximo sea más difícil numéricamente, y el máximo de probabilidad no es tan mejor que otros puntos alrededor de él, es decir, los errores de estimación de los parámetros son altos.
Y de nuevo, seguimos teniendo la relación de curvatura y segunda derivada. Entonces, ¿por qué Fisher no miró la curvatura de la función de probabilidad? Creo que es por la misma razón de conveniencia. Es más fácil manipular la loglikelihood debido a las sumas en lugar del producto. Así que pudo estudiar la curvatura de la verosimilitud analizando la segunda derivada de la loglikelihood. Aunque la ecuación parece muy sencilla para la curvatura $\kappa_{max}=f''(x_{max})$ En realidad, estás tomando una segunda derivada del producto, que es más complicada que la suma de segundas derivadas.
ACTUALIZACIÓN 2:
He aquí una demostración. Dibujo una función de probabilidad (completamente inventada), su a) curvatura y b) la 2ª derivada de su logaritmo. A la izquierda se ve la probabilidad estrecha y a la derecha la ancha. Se ve cómo en el punto de máxima verosimilitud a) y b) convergen, como debe ser. Sin embargo, lo más importante es que puedes estudiar la amplitud (o planitud) de la función de verosimilitud examinando la segunda derivada de su log-verosimilitud. Como he escrito antes, esta última es técnicamente más sencilla de analizar que la primera.
No es sorprendente que una segunda derivada más profunda de la loglikelihood señale una función de verosimilitud más plana alrededor de su máximo, lo que no es deseable porque provoca un mayor error de estimación de los parámetros.
El código de MATLAB por si quieres reproducir los gráficos:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
ACTUALIZACIÓN 3:
En el código anterior he introducido una función arbitraria en forma de campana en la ecuación de curvatura, y luego he calculado la segunda derivada de su logaritmo. No reescalé nada, los valores son directamente de las ecuaciones para mostrar la equivalencia que mencioné antes.
Aquí está el primer artículo sobre probabilidad que Fisher publicó cuando aún estaba en la universidad, "On an Absolute Criterion for Fitting Frequency Curves", Messenger of Mathmatics, 41: 155-160 (1912)
Como estuve insistiendo todo el tiempo, no menciona ninguna conexión "más profunda" de las probabilidades logarítmicas con la entropía y otros temas extravagantes, ni tampoco ofrece todavía su criterio de información. Simplemente pone la ecuación $\log P'=\sum_1^n\log p$ en la p.54 y luego procede a hablar de la maximización de las probabilidades. En mi opinión, esto demuestra que estaba utilizando el logaritmo sólo como un método conveniente para analizar las probabilidades conjuntas en sí. Es especialmente útil en el ajuste de curvas continuas, para el que da una fórmula obvia en la p.55: $$\log P=\int_{-\infty}^\infty\log fdx$$ Buena suerte en el análisis de esta posibilidad (o probabilidad) $P$ ¡según Fisher) sin el registro!
Una cosa que hay que tener en cuenta al leer el artículo es que él estaba empezando con el trabajo de estimación de máxima verosimilitud, e hizo más trabajo en los 10 años siguientes, por lo que incluso el término MLE no se había acuñado todavía, que yo sepa.