Una moneda puede estar sesgada; se obtiene "cara" con frecuencia $p\in(0,1)$ . La probabilidad de obtener dos cabezas en seis ensayos independientes es $\binom{6}{2}p^2(1-p)^4$ . La función de verosimilitud es $L(p) = \binom{6}{2}p^2(1-p)^4$ . Es la probabilidad en función de $p$ con el " $2$ " se mantuvo fija.
Con $p$ fija, la probabilidad de obtener "cara" $x$ veces, en función de $x$ es la función de densidad de probabilidad (con respecto a la medida de recuento, por lo que es la función de masa de probabilidad). Pero con $x$ fijo (en el ejemplo anterior, $x=2$ ) la misma densidad de probabilidad en función de $p$ (y en función de $p$ es no una función de densidad de probabilidad) es la función de verosimilitud $$ L(p) = \binom{6}{2}p^2(1-p)^4. $$ La función log-verosimilitud no es más que el logaritmo de la función de verosimilitud: $$ \ell(p) = \log\binom{6}{2} + 2\log p + 4\log(1-p). $$ El logaritmo se utiliza simplemente porque es una función más fácil de diferenciar. Por lo general, no se busca $L'(p)$ porque, por lo general, lo que se busca es el valor máximo y no la tasa de variación en puntos concretos. $\log$ es una función creciente, por lo que el valor máximo de $\ell$ y la de $L$ ocurren en los mismos lugares.
La estimación de máxima verosimilitud no es el único propósito para el que se utilizan las funciones de verosimilitud. Otro propósito es que si se multiplica una densidad de probabilidad a priori de $p$ por la función de verosimilitud, y luego se normaliza, se obtiene la función de densidad de probabilidad posterior de $p$ . Este es el teorema de Bayes. El propio Bayes lo hizo originalmente en el contexto de la distribución binomial, como en el ejemplo anterior. En ese tipo de problema, uno generalmente no tiene ocasión de tomar el logaritmo explícitamente.