Ok, gracias a la excelente @Mur1lo respuesta, ahora tengo una mejor comprensión y quisiera hacer mi propio intento de hacer este concepto abstracto como concreto como puedo.
Supongamos que tenemos una muestra de 5 monedas de los resultados de los sorteos. Suponemos que son muestras de una población con distribución de Bernoulli con el verdadero parámetro de $\pi_0$.
Cuando nos fijamos en una determinada moneda dibujar con resultado $x_3=1$, se puede calcular el logaritmo de la probabilidad de que este paciente se tomaron muestras de una distribución de Bernoulli con todo tipo de valores de los parámetros, por ejemplo, $\pi = 0.2$ o $\pi=0.9$ y así sucesivamente. así, la log-verosimilitud es una función de la estimación de la probabilidad de $x_3$ para cada posible valor de $\pi$.
$$ LL(\pi|x_3) = x_3ln(\pi) + (1-x_3)ln(1-\pi) $$
Esto simplemente significa que si $x_3=1$ la probabilidad de que se $\pi$ y si es 0 la probabilidad de que se $1-\pi$.
Si asumimos la independencia entre la moneda se basa, entonces tenemos un "promedio" de la función que representa el logaritmo de la probabilidad de la totalidad de la muestra de n=5 monedas de los sorteos.
$$ LL(\pi|X) = \sum{x_i}ln(\pi) + (n-\sum(x_i))ln(1-\pi) $$
Queremos encontrar el máximo de $LL(\pi|X)$ - el mle = $\pi_{mle}$.
La puntuación de la función $u(\pi)$ es un vector de los derivados w.r.t cada uno de los parámetros de la log-verosimilitud. Por suerte en nuestro caso, es un simple escalar como sólo hay un parámetro. Bajo algunas condiciones, nos ayude a encontrar a $\pi_{mle}$, ya que en ese punto de la puntuación de la función sería la $u(\pi_{mle}) = 0$. Podemos calcular la observación de la partitura de la función de una única observación (moneda de dibujar):
$$ u(\pi|x_3) = \frac{x_3}{\pi} - \frac{1-x_3}{1-\pi} $$
y el ejemplo de puntuación de la función de n=5 pacientes:
$$ u(\pi|X) = \frac{\sum{x_i}}{\pi} - \frac{n-\sum{x_i}}{1-\pi} $$
cuando establecemos esta última función a 0, obtenemos $\pi_{mle}$.
PERO, los 5 sorteos de la muestra no tiene nada que ver con la esperanza de vida de la puntuación de la función ! La esperanza es el valor de la observación de la partitura de la función para cada valor posible de x, multiplicado por la probabilidad de que el valor, que es la función de densidad! En nuestro caso, x sólo puede tomar 2 valores: 0 y 1. Y la función de densidad es como se supone es una de Bernoulli con parámetro de $\pi_0$:
$$ E(u(\pi|x_i)) = \sum_x (\frac{x}{\pi} - \frac{1-x}{1-\pi}) \pi_0^x(1-\pi_0)^{1-x} = \frac{\pi_0}{\pi} - \frac{1-\pi_0}{1-\pi}$$
y es claro que se pone a cero cuando se evaluó en el verdadero parámetro de $\pi_0$. La intuitiva interpretación es la siguiente: Para cada valor de $\pi$, ¿cuál es la tasa media de cambio en la probabilidad?
La matriz de información es la variación de la probabilidad de lo sensible que es nuestra solución a los diferentes datos? (ver esta respuesta).
$$I(\pi|x_i) = var(u(\pi|x_i)) = var(\frac{x_i}{\pi} - \frac{1-x_i}{1-\pi}) = var(\frac{x_i-\pi}{\pi(1-\pi)}) = \frac{var(x_i)}{\pi^2(1-\pi)^2} = \frac{\pi_0(1-\pi_0)}{\pi^2(1-\pi)^2}$$
y cuando se evaluó en el verdadero parámetro de $\pi_0$ se simplifica a:
$$I(\pi_0|x_i) = \frac{1}{\pi_0(1-\pi_0)}$$
(ver washington edu notas para obtener más detalles).
Sorprendentemente, no hay otra manera de medir cuán sensible es la probabilidad de que iba a ser en un cierto $\pi$! esa es la esperanza de la curvatura = Saco = derivada segunda. La más pronunciada nuestra probabilidad, la más exacta vamos a ser. Ver detalles en la marca de reid blog