13 votos

Fisher ' s función de puntuación tiene media cero - ¿qué significa que incluso?

Estoy tratando de seguir la revisión de princeton de la teoría de la probabilidad. Definen Fisher's score function como el primer derivado de la log-verosimilitud la función y decir que el resultado es un vector al azar. Por ejemplo para la distribución geométrica:

¿$$ u(\pi) = n(\frac{1}{\pi} - \frac{\bar{y}}{1-\pi} ) $$

And I can see that it is indeed a function (of the parameter $\pi$), and it is random, as it involves $\bar{y}$.

BUT then they say something I don't understand: "the score evaluated at the true parameter value $\pi$ has mean zero" and they formulate it as $E(u(\pi)) = 0$. What does it mean to evaluate it at the "true parameter value" and then find out its mean? And in the Geometric example, if I use the identity $E(y) = E(\bar{y}) = \frac{1-\pi}{\pi} $ won't I immediately get that $E(u(\pi)) = 0$? ¿Qué significa el "verdadero valor del parámetro" tiene que ver con esto?

20voto

Zafar Puntos 1

Como lo señaló la puntuación de la función $u$ es, bajo adecuadas condiciones de regularidad, que se define como "la primera derivada de la función de verosimilitud logarítmica".

Supongamos que $X$ es una variable aleatoria con función de densidad de $f(x)$. Normalmente esto los cambios de densidad en función de un vector de parámetros $\pi$. Por lo tanto es conveniente para wright la función de densidad como $f(x;\pi)$ hacer explícito de la dependencia en el parámetro. Vamos a suponer que el "verdadero" valor de $\pi$ para la variable aleatoria $X$$\pi = \pi_0$. (lo que quiero decir es que $X \sim f(\;\cdot\;;\pi_0)$)

La puntuación de la función ahora puede ser escrita como: $$u(\pi;x) = \frac{\partial}{\partial\pi}\log f(x;\pi),$$ y ahora está claro que es una función tanto de $x$ e de $\pi$. (En su pregunta usted tiene $L$ en lugar de $f$, pero no hay ninguna diferencia ya que la probabilidad función es la función de densidad.)

Considere la variable aleatoria $u(\pi,X)$ y su expectativa $\xi(\pi) = \mathbb{E_{\pi_0}}(u(\pi,X))$. Aquí es importante notar que el subíndice $\pi_0$ está ahí para indicar la (verdadera) parámetro de la distribución de $X$ y diferenciar desde el valor de $\pi$ con el que estamos calculando $u$.

Suponiendo que $f$ es un continuo de la densidad (la discreta caso es similar) tenemos:

$$\xi(\pi) = \int_{-\infty}^{+\infty}\left(\frac{\partial}{\partial\pi}\log f(x;\pi)\right)f(x;\pi_0)dx = \int_{-\infty}^{+\infty}\frac{f'(x;\pi)}{f(x;\pi)}f(x;\pi_0)dx$$

y cuando evaluar $\xi$ en el verdadero valor del parámetro $\pi_0$ obtenemos:

$$\xi(\pi_0) = \int_{-\infty}^{+\infty}\frac{f'(x;\pi_0)}{f(x;\pi_0)}f(x;\pi_0)dx = \int_{-\infty}^{+\infty}f'(x;\pi_0)dx$$ $$=\frac{\partial}{\partial\pi}\int_{-\infty}^{+\infty}f(x;\pi_0)dx = 0$$

Ese es el razonamiento detrás de la puntuación de la función de tener expectativas de cero en el verdadero parámetro.

Usted debe echar un vistazo a libros como este (capítulo 3) para tener una mayor comprensión de las condiciones bajo las cuales esas derivaciones (como el intercambio de derivada e integral) de verdad.

5voto

Patrick McKinnon Puntos 218

Ok, gracias a la excelente @Mur1lo respuesta, ahora tengo una mejor comprensión y quisiera hacer mi propio intento de hacer este concepto abstracto como concreto como puedo.

Supongamos que tenemos una muestra de 5 monedas de los resultados de los sorteos. Suponemos que son muestras de una población con distribución de Bernoulli con el verdadero parámetro de $\pi_0$.

Cuando nos fijamos en una determinada moneda dibujar con resultado $x_3=1$, se puede calcular el logaritmo de la probabilidad de que este paciente se tomaron muestras de una distribución de Bernoulli con todo tipo de valores de los parámetros, por ejemplo, $\pi = 0.2$ o $\pi=0.9$ y así sucesivamente. así, la log-verosimilitud es una función de la estimación de la probabilidad de $x_3$ para cada posible valor de $\pi$.

$$ LL(\pi|x_3) = x_3ln(\pi) + (1-x_3)ln(1-\pi) $$

Esto simplemente significa que si $x_3=1$ la probabilidad de que se $\pi$ y si es 0 la probabilidad de que se $1-\pi$.

Si asumimos la independencia entre la moneda se basa, entonces tenemos un "promedio" de la función que representa el logaritmo de la probabilidad de la totalidad de la muestra de n=5 monedas de los sorteos.

$$ LL(\pi|X) = \sum{x_i}ln(\pi) + (n-\sum(x_i))ln(1-\pi) $$

Queremos encontrar el máximo de $LL(\pi|X)$ - el mle = $\pi_{mle}$.

La puntuación de la función $u(\pi)$ es un vector de los derivados w.r.t cada uno de los parámetros de la log-verosimilitud. Por suerte en nuestro caso, es un simple escalar como sólo hay un parámetro. Bajo algunas condiciones, nos ayude a encontrar a $\pi_{mle}$, ya que en ese punto de la puntuación de la función sería la $u(\pi_{mle}) = 0$. Podemos calcular la observación de la partitura de la función de una única observación (moneda de dibujar):

$$ u(\pi|x_3) = \frac{x_3}{\pi} - \frac{1-x_3}{1-\pi} $$

y el ejemplo de puntuación de la función de n=5 pacientes:

$$ u(\pi|X) = \frac{\sum{x_i}}{\pi} - \frac{n-\sum{x_i}}{1-\pi} $$

cuando establecemos esta última función a 0, obtenemos $\pi_{mle}$.


PERO, los 5 sorteos de la muestra no tiene nada que ver con la esperanza de vida de la puntuación de la función ! La esperanza es el valor de la observación de la partitura de la función para cada valor posible de x, multiplicado por la probabilidad de que el valor, que es la función de densidad! En nuestro caso, x sólo puede tomar 2 valores: 0 y 1. Y la función de densidad es como se supone es una de Bernoulli con parámetro de $\pi_0$:

$$ E(u(\pi|x_i)) = \sum_x (\frac{x}{\pi} - \frac{1-x}{1-\pi}) \pi_0^x(1-\pi_0)^{1-x} = \frac{\pi_0}{\pi} - \frac{1-\pi_0}{1-\pi}$$

y es claro que se pone a cero cuando se evaluó en el verdadero parámetro de $\pi_0$. La intuitiva interpretación es la siguiente: Para cada valor de $\pi$, ¿cuál es la tasa media de cambio en la probabilidad?


La matriz de información es la variación de la probabilidad de lo sensible que es nuestra solución a los diferentes datos? (ver esta respuesta).

$$I(\pi|x_i) = var(u(\pi|x_i)) = var(\frac{x_i}{\pi} - \frac{1-x_i}{1-\pi}) = var(\frac{x_i-\pi}{\pi(1-\pi)}) = \frac{var(x_i)}{\pi^2(1-\pi)^2} = \frac{\pi_0(1-\pi_0)}{\pi^2(1-\pi)^2}$$

y cuando se evaluó en el verdadero parámetro de $\pi_0$ se simplifica a:

$$I(\pi_0|x_i) = \frac{1}{\pi_0(1-\pi_0)}$$

(ver washington edu notas para obtener más detalles).

Sorprendentemente, no hay otra manera de medir cuán sensible es la probabilidad de que iba a ser en un cierto $\pi$! esa es la esperanza de la curvatura = Saco = derivada segunda. La más pronunciada nuestra probabilidad, la más exacta vamos a ser. Ver detalles en la marca de reid blog

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X