33 votos

Motivación teórica para utilizar la log-verosimilitud frente a la verosimilitud

Estoy tratando de entender a un nivel más profundo la ubicuidad de la log-verosimilitud (y quizás más generalmente de la log-probabilidad) en la estadística y la teoría de la probabilidad. Las log-probabilidades aparecen por todas partes: solemos trabajar con la log-probabilidad para el análisis (por ejemplo, para la maximización), la información de Fisher se define en términos de la segunda derivada de la log-probabilidad, la entropía es una log-probabilidad esperada, la divergencia de Kullback-Liebler implica log-probabilidades, la diviancia esperada es una log-probabilidad esperada, etc.

Ahora aprecio los muchos práctico y conveniente razones. Muchas FDP comunes y útiles son de familias exponenciales, lo que conduce a términos elegantemente simplificados cuando se transforman en logaritmos. Las sumas son más fáciles de trabajar que los productos (especialmente para diferenciar). Las probabilidades logarítmicas tienen una gran ventaja de punto flotante sobre las probabilidades directas. La transformación logarítmica de un pdf a menudo convierte una función no cóncava en una función cóncava. Pero, ¿cuál es la razón/justificación/motivación teórica de los log-probs?

Como ejemplo de mi perplejidad, consideremos la información de Fisher (IF). La explicación habitual para intuir la IF es que la segunda derivada de la log-verosimilitud nos indica el grado de "pico" de la log-verosimilitud: una log-verosimilitud muy alta significa que la MLE está bien especificada y estamos relativamente seguros de su valor, mientras que una log-verosimilitud casi plana (baja curvatura) significa que muchos valores de parámetros diferentes son casi tan buenos (en términos de log-verosimilitud) como la MLE, por lo que nuestra MLE es más incierta.

Todo esto está muy bien, pero ¿no es más natural encontrar la curvatura de la función de probabilidad en sí misma (NO transformada en logaritmo)? A primera vista, el énfasis en la transformación logarítmica parece arbitrario y erróneo. Seguramente estamos más interesados en la curvatura de la función de probabilidad real. ¿Cuál fue la motivación de Fisher para trabajar con la función de puntuación y el hessiano de la log-verosimilitud en su lugar?

¿La respuesta es simplemente que, al final, tenemos buenos resultados de la log-verosimilitud asintótica? Por ejemplo, Cramer-Rao y la normalidad de la MLE/posterior. ¿O hay una razón más profunda?

21voto

Aksakal Puntos 11351

En realidad es una comodidad para la loglikelihood, nada más.

Me refiero a la comodidad de las sumas frente a los productos: $\ln (\prod_i x_i) =\sum_i\ln x_i$ Las sumas son más fáciles de tratar en muchos aspectos, como la diferenciación o la integración. No es una conveniencia sólo para familias exponenciales, quiero decir.

Cuando se trata de una muestra aleatoria, las probabilidades son de la forma $\mathrm{L}=\prod_ip_i$ , por lo que la loglikelihood rompería este producto en la suma en su lugar, que es más fácil de manipular y analizar. Ayuda que todo lo que nos importa es el punto del máximo, el valor en el máximo no es importante, se puede aplicar cualquier transformación monótona como el logaritmo.

Sobre la intuición de la curvatura. Al final es básicamente lo mismo que la segunda derivada de la loglikelihood.

ACTUALIZACIÓN: Esto es lo que quería decir sobre la curvatura. Si tienes una función $y=f(x)$ , entonces su curvatura sería ( ver (14) en Wolfram): $$\kappa=\frac{f''(x)}{(1+f'(x)^2)^{3/2}}$$

La segunda derivada del logaritmo de la probabilidad: $$A=(\ln f(x))''=\frac{f''(x)}{f(x)}-\left(\frac{f'(x)}{f(x)}\right)^2$$

En el punto del máximo, la primera derivada es obviamente cero, por lo que obtenemos: $$\kappa_{max}=f''(x_{max})=Af(x_{max})$$ De ahí mi ocurrencia de que la curvatura de la probabilidad y la segunda derivada de la loglikelihood son la misma cosa, más o menos.

Por otra parte, si la primera derivada de la verosimilitud es pequeña no sólo en el punto de máximo sino alrededor de él, es decir, la función de verosimilitud es plana, entonces obtenemos $$\kappa\approx f''(x)\approx A f(x)$$ Ahora la probabilidad plana no es algo bueno para nosotros, porque hace que encontrar el máximo sea más difícil numéricamente, y el máximo de probabilidad no es tan mejor que otros puntos alrededor de él, es decir, los errores de estimación de los parámetros son altos.

Y de nuevo, seguimos teniendo la relación de curvatura y segunda derivada. Entonces, ¿por qué Fisher no miró la curvatura de la función de probabilidad? Creo que es por la misma razón de conveniencia. Es más fácil manipular la loglikelihood debido a las sumas en lugar del producto. Así que pudo estudiar la curvatura de la verosimilitud analizando la segunda derivada de la loglikelihood. Aunque la ecuación parece muy sencilla para la curvatura $\kappa_{max}=f''(x_{max})$ En realidad, estás tomando una segunda derivada del producto, que es más complicada que la suma de segundas derivadas.

ACTUALIZACIÓN 2:

He aquí una demostración. Dibujo una función de probabilidad (completamente inventada), su a) curvatura y b) la 2ª derivada de su logaritmo. A la izquierda se ve la probabilidad estrecha y a la derecha la ancha. Se ve cómo en el punto de máxima verosimilitud a) y b) convergen, como debe ser. Sin embargo, lo más importante es que puedes estudiar la amplitud (o planitud) de la función de verosimilitud examinando la segunda derivada de su log-verosimilitud. Como he escrito antes, esta última es técnicamente más sencilla de analizar que la primera.

No es sorprendente que una segunda derivada más profunda de la loglikelihood señale una función de verosimilitud más plana alrededor de su máximo, lo que no es deseable porque provoca un mayor error de estimación de los parámetros.

enter image description here

El código de MATLAB por si quieres reproducir los gráficos:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

ACTUALIZACIÓN 3:

En el código anterior he introducido una función arbitraria en forma de campana en la ecuación de curvatura, y luego he calculado la segunda derivada de su logaritmo. No reescalé nada, los valores son directamente de las ecuaciones para mostrar la equivalencia que mencioné antes.

Aquí está el primer artículo sobre probabilidad que Fisher publicó cuando aún estaba en la universidad, "On an Absolute Criterion for Fitting Frequency Curves", Messenger of Mathmatics, 41: 155-160 (1912)

Como estuve insistiendo todo el tiempo, no menciona ninguna conexión "más profunda" de las probabilidades logarítmicas con la entropía y otros temas extravagantes, ni tampoco ofrece todavía su criterio de información. Simplemente pone la ecuación $\log P'=\sum_1^n\log p$ en la p.54 y luego procede a hablar de la maximización de las probabilidades. En mi opinión, esto demuestra que estaba utilizando el logaritmo sólo como un método conveniente para analizar las probabilidades conjuntas en sí. Es especialmente útil en el ajuste de curvas continuas, para el que da una fórmula obvia en la p.55: $$\log P=\int_{-\infty}^\infty\log fdx$$ Buena suerte en el análisis de esta posibilidad (o probabilidad) $P$ ¡según Fisher) sin el registro!

Una cosa que hay que tener en cuenta al leer el artículo es que él estaba empezando con el trabajo de estimación de máxima verosimilitud, e hizo más trabajo en los 10 años siguientes, por lo que incluso el término MLE no se había acuñado todavía, que yo sepa.

7voto

Wouter Puntos 672

Punto adicional . Algunas de las distribuciones de probabilidad más utilizadas (incluyendo la distribución normal, la distribución exponencial, la distribución de Laplace, por nombrar algunas) son log-concave . Esto significa que su logaritmo es cóncavo. Esto hace que la maximización de la logaritmo-probabilidad sea mucho más fácil que la maximización de la probabilidad original (lo cual es especialmente útil en los métodos de máxima probabilidad o de máxima a-posteriori). Para dar un ejemplo, utilizando Método de Newton maximizar directamente una distribución gaussiana multivariada puede llevar un gran número de pasos, mientras que maximizar un paraboloide (el logaritmo de la distribución gaussiana multivariada) lleva exactamente un paso.

6voto

La importancia teórica de la log-verosimilitud puede verse desde (al menos) dos perspectivas: la teoría asintótica de la verosimilitud y la teoría de la información.

La primera de ellas (creo) es la teoría asintótica de la log-verosimilitud. Creo que la teoría de la información se puso en marcha mucho después de que Fisher pusiera la máxima verosimilitud en marcha hacia el dominio del siglo XX.

En la teoría de la verosimilitud, la log-verosimilitud parabólica ocupa un lugar central en la inferencia. Lucien Le Cam ha desempeñado un papel importante en la elucidación de la importancia de la log-verosimilitud cuadrática en la teoría asintótica.

Cuando se tiene una log-verosimilitud cuadrática, no sólo la curvatura sobre el MLE nos dice cualitativamente la precisión con la que podemos estimar el parámetro, sino que también sabemos que el error se distribuye normalmente con una varianza igual a la recíproca de la curvatura. Cuando la log-verosimilitud es aproximadamente cuadrática, entonces decimos que estos resultados se mantienen aproximadamente, o asintóticamente.

Una segunda razón es el protagonismo de la log-verosimilitud (o log-probabilidad) en teoría de la información donde es la principal cantidad utilizada para medir el contenido de información.

Existe una variante de la Entropía llamada Divergencia de Kullback-Liebler que se minimiza con la estimación de máxima verosimilitud. En particular, si la verdadera distribución de los datos es $g$ entonces la distribución "más cercana" (medida por la divergencia de Kullback-Liebler) a $g$ en la familia paramétrica $f(\theta)$ viene dada por $f(\hat{\theta})$ , donde $ \hat{\theta}$ es la estimación de máxima verosimilitud.

Por último, la log-verosimilitud es la cantidad utilizada en varios criterios de selección de modelos, como AIC y BIC . Esencialmente, cada uno de estos criterios equivale a un parámetro/grado de libertad adicional con algún múltiplo de $\ln \hat{L}$ .

Así pues, la probabilidad logarítmica, además de ser una transformación numérica útil, tiene profundos vínculos con la inferencia y la teoría de la información.

0voto

Steve Smith Puntos 2633

TLDR: Es mucho más fácil derivar sumas que productos, porque el operador de la derivada es lineal con la suma pero con el producto hay que hacer la regla del producto. Es una complejidad lineal frente a una complejidad polinómica de orden superior

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X