Estoy estudiando estadística. Cuando leí el libro de texto sobre la información de Fisher, no podía entender por qué la información de Fisher se define así: $$ I (\theta) = E_\theta\left [-\frac {\partial^2} {\partial \theta^2}\ln P(\theta; ¿X) \right]. $$ podría alguien por favor, dar una explicación intuitiva de la definición?
Respuestas
¿Demasiados anuncios?De la manera de escribir la información, parece que usted asuma que usted tiene sólo un parámetro a estimar ($\theta$) y se considera una variable aleatoria (la observación de $X$ de la muestra). Esto hace que el argumento mucho más sencillo, así que me va a llevar en esta forma.
Utilizar la información cuando se quiere llevar a cabo la inferencia mediante la maximización de la registro de la probabilidad. Que la log-verosimilitud es una función de $\theta$ que es aleatorio, porque depende de la $X$. Te gustaría encontrar un máximo única por la localización de la teta que se le da a ese máximo. Normalmente, a resolver la primera de las condiciones de la orden por la equiparación de la puntuación $\frac{\partial\ell \left( \theta ; x \right)}{\parcial \theta} = \frac{\partial\log p \left( x ; \theta \right)}{\parcial \theta}$ a 0. Ahora le gustaría saber cómo es exacto que la estimación es. Cuánto de la curvatura de la función de probabilidad en torno a su máximo se va a dar esa información (si alcanzó su punto máximo alrededor de la máxima, usted está bastante seguro de que, de lo contrario, si la probabilidad es plana, que son bastante inciertos acerca de la estimación). Probabilísticamente, quisiera saber la varianza de la puntuación "de por ahí" (esto es heurístico y un no-argumento riguroso. En realidad se podría mostrar la equivalencia entre la geometría y probabilidad/estadística de conceptos).
Ahora, sabemos que, en promedio, el puntaje es cero (ver la prueba de que el punto al final de esta respuesta). Así \begin{eqnarray*} E \left[ \frac{\partial \ell \left( \theta ; x \right)}{\parcial \theta} \right] & = & 0\\ \int \frac{\partial \ell \left( \theta ; x \right)}{\parcial \theta} p \left( x ; \theta \right) d x & = & 0 \end{eqnarray*} Tomar derivados en ambos lados (podemos intercambio integral y derivativo aquí, pero no voy a dar rigurosas condiciones aquí) \begin{eqnarray*} \frac{\partial}{\partial \theta} \int \frac{\partial \ell \left( \theta ; x \right)}{\parcial \theta} p \left( x ; \theta \right) d x & = & 0\\ \int \frac{\partial \ell^2 \left( \theta ; x \right)}{\parcial \theta^2} p \left( x ; \theta \right) d x + \int \frac{\partial \ell \left( \theta ; x \right)}{\parcial \theta} \frac{\partial p \left( x ; \theta \right)}{\parcial \theta} d x & = & 0 \end{eqnarray*}
El segundo término en el lado izquierdo es \begin{eqnarray*} \int \frac{\partial \ell \left( \theta ; x \right)}{\parcial \theta} \frac{\partial p \left( x ; \theta \right)}{\parcial \theta} d x & = & \int \frac{\partial \log p \left( \theta ; x \right)}{\parcial \theta} \frac{\partial p \left( x ; \theta \right)}{\parcial \theta} d x\\ & = & \int \frac{\partial \log p \left( \theta ; x \right)}{\partial \theta} \frac{\frac{\partial p \left( x ; \theta \right)}{\partial \theta}}{p \left( x ; \theta \right)} p \left( x ; \theta \right) d x\\ & = & \int \left( \frac{\partial \log p \left( \theta ; x \right)}{\partial \theta} \right)^2 p \left( x ; \theta \right) d x\\ & = & V \left[ \frac{\partial \ell \left( \theta ; x \right)}{\partial \theta} \right] \end{eqnarray*}
(aquí el segundo sigue dividiendo y multiplicando por $p(x;\theta)$. La tercera línea de la siguiente manera a partir de la aplicación de la regla de la cadena para derivadas de registro. El final de la siguiente manera a partir de la expectativa de la puntuación es cero, que es la varianza es igual a la expectativa de la plaza y no hay necesidad de restar la plaza de la expectativa.)
A partir de la cual se puede ver
\begin{eqnarray*} V \left[ \frac{\partial \ell \left( \theta ; x \right)}{\parcial \theta} \right] & = & - \int \frac{\partial \ell^2 \left( \theta ; x \right)}{\parcial \theta^2} p \left( x ; \theta \right) dx\\ & = & - E \left[ \frac{\partial \ell^2 \left( \theta ; x \right)}{\partial \theta^2} \right] \end{eqnarray*}
Ahora usted puede ver por qué resumiendo incertidumbre (curvatura) acerca de la probabilidad función de la particular fórmula de Fisher de la información.
Incluso podemos ir más allá y demostrar que el estimador de máxima verosimilitud mejor posible la eficiencia está dada por la inversa de la información (esto se llama la Cramér-Rao límite inferior).
Para responder a una pregunta adicional en el OP, voy a mostrar lo que la expectativa de la puntuación es cero. Desde $p \left( x, \theta \right)$ es una densidad \begin{eqnarray*} \int p \left( x ; \theta \right) \mathrm{d} x & = & 1 \end{eqnarray*} Tomar derivados en ambos lados \begin{eqnarray*} \frac{\partial}{\partial \theta} \int p \left( x ; \theta \right) \mathrm{d} x & = & 0 \end{eqnarray*} Busca en el lado izquierdo \begin{eqnarray*} \frac{\partial}{\partial \theta} \int p \left( x ; \theta \right) \mathrm{d} x & = & \int \frac{\partial p \left( x ; \theta \right)}{\parcial \theta} \mathrm{d} x\\ & = & \int \frac{\frac{\partial p \left( x ; \theta \right)}{\partial \theta}}{p \left( x ; \theta \right)} p \left( x ; \theta \right) \mathrm{d} x\\ & = & \int \frac{\partial \log p \left( x ; \theta \right)}{\partial \theta} p \left( x ; \theta \right) \mathrm{d} x\\ & = & E \left[ \frac{\partial \ell \left( \theta ; x \right)}{\partial \theta} \right] \end{eqnarray*} Así, la expectativa de la puntuación es cero.
Este no era un riguroso exposición. Te recomiendo que siga en los argumentos aquí en un muy buen libro de texto en la inferencia estadística. (Yo personalmente recomiendo el libro de Casella y Berger , pero hay muchos otros excelentes libros.)
De La Wikipedia :
[Fisher] Información puede ser visto como una medida de la "curvatura" del apoyo de la curva cerca de la estimación de máxima verosimilitud de θ. Un "contundente" el apoyo de la curva (con poca máximo) tendría un bajo esperado negativo segunda derivada, y por lo tanto de la información bajo; mientras que un fuerte uno tiene una alta esperado negativo segunda derivada y por lo tanto de alta la información.
P(q;X) es la función de masa de probabilidad aleatoria observable X condicional en el valor de θ. El Pescador de la Información es una manera de medir la cantidad de información X lleva sobre el parámetro desconocido, θ. Por lo tanto, a la luz de la cita anterior, un fuerte, fuerte apoyo de la curva tendría un alto esperado negativo segunda derivada, y por lo tanto un mayor Fisher información, de forma intuitiva, de un objeto contundente, la poca profundidad de apoyo de la curva, que expresan menos información a través de X sobre θ.
Todos estos son correctos, pero no explican por qué tenemos que mirar a la curvatura (Hesse) de la log-verosimilitud en lugar de la probabilidad.
Poner muy informalmente: normalidad asintótica de los estados que la distribución de la MLE estimadores en torno a modo de cierre a la probabilidad (o imita la curvatura de la probabilidad) como el número de muestras enfoques hasta el infinito. La forma de la distribución se aproxima a una distribución normal centrada en el modo y tiene la misma curvatura, ya que la posibilidad (NO la log-verosimilitud) en el modo.
Yo creo que las ideas detrás de normalidad asintótica y la aproximación de Laplace están íntimamente relacionados. Es casi similar a la de una aproximación de Laplace de todo el modo de la probabilidad.