Tratando de complementar las otras respuestas ... ¿Qué tipo de información es la información de Fisher? Comienza con la función de loglikelihood $$ \ell (\theta) = \log f(x;\theta) $$ en función de $\theta$ para $\theta \in \Theta$ el espacio de los parámetros. Asumiendo algunas condiciones de regularidad que no discutimos aquí, tenemos $\DeclareMathOperator{\E}{\mathbb{E}} \E \frac{\partial}{\partial \theta} \ell (\theta) = \E_\theta \dot{\ell}(\theta) = 0$ (escribiremos las derivadas con respecto al parámetro como puntos como aquí). La varianza es la información de Fisher $$ I(\theta) = \E_\theta ( \dot{\ell}(\theta) )^2= -\E_\theta \ddot{\ell}(\theta) $$ la última fórmula muestra que es la curvatura (negativa) de la función de loglikelihood. A menudo se encuentra el estimador de máxima verosimilitud (mle) de $\theta$ resolviendo la ecuación de probabilidad $\dot{\ell}(\theta)=0$ cuando la información de Fisher como la varianza de la puntuación $\dot{\ell}(\theta)$ es grande, entonces la solución de esa ecuación será muy sensible a los datos, dando una esperanza de alta precisión de la mle. Esto se confirma al menos asintóticamente, siendo la varianza asintótica del mle la inversa de la información de Fisher.
¿Cómo podemos interpretar esto? $\ell(\theta)$ es la información de probabilidad sobre el parámetro $\theta$ de la muestra. En realidad, esto sólo puede interpretarse en un sentido relativo, como cuando lo utilizamos para comparar las verosimilitudes de dos posibles valores de parámetros distintos mediante la prueba de la razón de verosimilitud $\ell(\theta_0) - \ell(\theta_1)$ . La tasa de cambio de la loglikelihood es la función de puntuación $\dot{\ell}(\theta)$ nos dice lo rápido que cambia la probabilidad, y su varianza $I(\theta)$ cuánto varía esto de una muestra a otra, a un valor determinado del parámetro, digamos $\theta_0$ . La ecuación (¡que es realmente sorprendente!) $$ I(\theta) = - \E_\theta \ddot{\ell}(\theta) $$ nos dice que existe una relación (igualdad) entre la variabilidad de la información (probabilidad) para un valor determinado del parámetro, $\theta_0$ y la curvatura de la función de verosimilitud para ese valor del parámetro. Se trata de una relación sorprendente entre la variabilidad (varianza) de este estadístico $\dot{\ell}(\theta) \mid_{\theta=\theta_0}$ y el cambio esperado en la semejanza cuando variamos el parámetro $\theta$ en algún intervalo alrededor de $\theta_0$ (para los mismos datos). Esto es realmente extraño, sorprendente y poderoso.
¿Cuál es la función de probabilidad? Normalmente pensamos en el modelo estadístico $\{ f(x;\theta), \theta \in \Theta \} $ como una familia de distribuciones de probabilidad para los datos $x$ indexado por el parámetro $\theta$ algún elemento del espacio de parámetros $\Theta$ . Pensamos que este modelo es verdadero si existe algún valor $\theta_0 \in \Theta$ de manera que los datos $x$ en realidad tienen la distribución de probabilidad $f(x;\theta_0)$ . Así, obtenemos un modelo estadístico al incrustar la verdadera distribución de probabilidad generadora de datos $f(x;\theta_0)$ en una familia de distribuciones de probabilidad. Pero está claro que esa incrustación puede hacerse de muchas maneras diferentes, y cada una de esas incrustaciones será un modelo "verdadero", y dará diferentes funciones de probabilidad. Y, sin esa incrustación, no hay función de probabilidad. Parece que realmente necesitamos algo de ayuda, algunos principios para elegir una incrustación de forma inteligente.
¿Qué significa esto? Significa que la elección de la función de verosimilitud nos dice cómo esperaríamos que cambiaran los datos, si la verdad cambiara un poco. Pero, esto no puede ser realmente verificado por los datos, ya que los datos sólo dan información sobre la verdadera función del modelo $f(x;\theta_0)$ que realmente generó los datos, y nada sobre los demás elementos del modelo elegido. De este modo, vemos que la elección de la función de verosimilitud es similar a la elección de una prioridad en el análisis bayesiano, ya que inyecta información no relacionada con los datos en el análisis. Veamos esto en un ejemplo sencillo (algo artificial), y observemos el efecto de la incrustación $f(x;\theta_0)$ en un modelo de diferentes maneras.
Supongamos que $X_1, \dotsc, X_n$ son iid como $N(\mu=10, \sigma^2=1)$ . Por lo tanto, esa es la verdadera distribución generadora de datos. Ahora, vamos a incrustar esto en un modelo de dos maneras diferentes, el modelo A y el modelo B. $$ A \colon X_1, \dotsc, X_n ~\text{iid}~N(\mu, \sigma^2=1),\mu \in \mathbb{R} \\ B \colon X_1, \dotsc, X_n ~\text{iid}~N(\mu, \mu/10), \mu>0 $$ se puede comprobar que esto coincide para $\mu=10$ .
Las funciones de loglikelihood se convierten en $$ \ell_A(\mu) = -\frac{n}{2} \log (2\pi) -\frac12\sum_i (x_i-\mu)^2 \\ \ell_B(\mu) = -\frac{n}{2} \log (2\pi) - \frac{n}{2}\log(\mu/10) - \frac{10}{2}\sum_i \frac{(x_i-\mu)^2}{\mu} $$
Las funciones de puntuación: (derivadas de loglikelihood): $$ \dot{\ell}_A(\mu) = n (\bar{x}-\mu) \\ \dot{\ell}_B(\mu) = -\frac{n}{2\mu}- \frac{10}{2}\sum_i (\frac{x_i}{\mu})^2 - 15 n $$ y las curvaturas $$ \ddot{\ell}_A(\mu) = -n \\ \ddot{\ell}_B(\mu) = \frac{n}{2\mu^2} + \frac{10}{2}\sum_i \frac{2 x_i^2}{\mu^3} $$ por lo que la información de Fisher depende realmente de la incrustación. Ahora, calculamos la información de Fisher en el valor verdadero $\mu=10$ , $$ I_A(\mu=10) = n, \\ I_B(\mu=10) = n \cdot (\frac1{200}+\frac{2020}{2000}) > n $$ por lo que la información de Fisher sobre el parámetro es algo mayor en el modelo B.
Esto ilustra que, en cierto sentido, la información de Fisher nos indica la rapidez de la información de los datos sobre el parámetro habría cambiado si el parámetro rector ha cambiado en la forma postulada por la incrustación en una familia de modelos . La explicación de la información superior en el modelo B es que nuestra familia de modelos B postula que si la expectativa hubiera aumentado, entonces la varianza también habría aumentado . De modo que, bajo el modelo B, la varianza de la muestra también llevará información sobre $\mu$ que no lo hará bajo el modelo A.
Además, este ejemplo ilustra que realmente necesitamos algo de teoría para ayudarnos en la construcción de familias de modelos.
0 votos
¿Por qué lo escribes? $E_\theta$ ? La expectativa es sobre los valores de $X$ distribuidos como si vinieran de su distribución con parámetro $\theta$ .
4 votos
También $I(\theta)$ no es cero en el parámetro verdadero.
0 votos
La E(S) es cero (es decir, la expectativa de la función de puntuación), pero como escribió Neil G, la información de Fisher (V(S)) no es (normalmente) cero.