58 votos

¿Qué tipo de información es la de Fisher?

Supongamos que tenemos una variable aleatoria $X \sim f(x|\theta)$ . Si $\theta_0$ fuera el parámetro verdadero, la función de verosimilitud debería ser maximizada y la derivada igual a cero. Este es el principio básico del estimador de máxima verosimilitud.

Según tengo entendido, la información de Fisher se define como

$$I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ]$$

Así, si $\theta_0$ es el parámetro verdadero, $I(\theta) = 0$ . Pero si $\theta_0$ no es el verdadero parámetro, entonces tendremos una mayor cantidad de información de Fisher.

mis preguntas

  1. ¿Mide la información de Fisher el "error" de una MLE dada? En otras palabras, ¿la existencia de información de Fisher positiva no implica que mi MLE no puede ser ideal?
  2. ¿En qué se diferencia esta definición de "información" de la utilizada por Shannon? ¿Por qué la llamamos información?

0 votos

¿Por qué lo escribes? $E_\theta$ ? La expectativa es sobre los valores de $X$ distribuidos como si vinieran de su distribución con parámetro $\theta$ .

4 votos

También $I(\theta)$ no es cero en el parámetro verdadero.

0 votos

La E(S) es cero (es decir, la expectativa de la función de puntuación), pero como escribió Neil G, la información de Fisher (V(S)) no es (normalmente) cero.

44voto

andynormancx Puntos 234

Pensemos en términos de la función de probabilidad logarítmica negativa $\ell$ . La puntuación negativa es su gradiente con respecto al valor del parámetro. En el parámetro verdadero, la puntuación es cero. En caso contrario, da la dirección hacia el mínimo $\ell$ (o en el caso de los no convexos $\ell$ un punto de silla de montar o un mínimo o máximo local).

La información de Fisher mide la curvatura de $\ell$ alrededor de $\theta$ si los datos siguen $\theta$ . En otras palabras, le indica cuánto afectaría a su probabilidad logarítmica el hecho de modificar el parámetro.

Considere que tiene un gran modelo con millones de parámetros. Y que tuvieras una pequeña unidad de disco duro en la que almacenar tu modelo. ¿Cómo debe priorizar cuántos bits de cada parámetro debe almacenar? La respuesta correcta es asignar los bits según la información de Fisher (Rissanen escribió sobre esto). Si la información de Fisher de un parámetro es cero, ese parámetro no importa.

Lo llamamos "información" porque la información de Fisher mide cuánto nos dice este parámetro sobre los datos.


Una forma coloquial de pensarlo es la siguiente: Supongamos que el parámetros están conduciendo un coche, y el datos está en el asiento trasero corrigiendo al conductor. La molestia de los datos es la información de Fisher. Si los datos dejan conducir al conductor, la información de Fisher es nula; si los datos están constantemente haciendo correcciones, es grande. En este sentido, la información de Fisher es la cantidad de información que va de los datos a los parámetros.

Piensa en lo que ocurre si haces que el volante sea más sensible. Esto equivale a una reparametrización. En ese caso, los datos no quieren ser tan fuertes por miedo a que el coche sobrevire. Este tipo de reparametrización disminuye la información de Fisher.

42voto

kjetil b halvorsen Puntos 7012

Tratando de complementar las otras respuestas ... ¿Qué tipo de información es la información de Fisher? Comienza con la función de loglikelihood $$ \ell (\theta) = \log f(x;\theta) $$ en función de $\theta$ para $\theta \in \Theta$ el espacio de los parámetros. Asumiendo algunas condiciones de regularidad que no discutimos aquí, tenemos $\DeclareMathOperator{\E}{\mathbb{E}} \E \frac{\partial}{\partial \theta} \ell (\theta) = \E_\theta \dot{\ell}(\theta) = 0$ (escribiremos las derivadas con respecto al parámetro como puntos como aquí). La varianza es la información de Fisher $$ I(\theta) = \E_\theta ( \dot{\ell}(\theta) )^2= -\E_\theta \ddot{\ell}(\theta) $$ la última fórmula muestra que es la curvatura (negativa) de la función de loglikelihood. A menudo se encuentra el estimador de máxima verosimilitud (mle) de $\theta$ resolviendo la ecuación de probabilidad $\dot{\ell}(\theta)=0$ cuando la información de Fisher como la varianza de la puntuación $\dot{\ell}(\theta)$ es grande, entonces la solución de esa ecuación será muy sensible a los datos, dando una esperanza de alta precisión de la mle. Esto se confirma al menos asintóticamente, siendo la varianza asintótica del mle la inversa de la información de Fisher.

¿Cómo podemos interpretar esto? $\ell(\theta)$ es la información de probabilidad sobre el parámetro $\theta$ de la muestra. En realidad, esto sólo puede interpretarse en un sentido relativo, como cuando lo utilizamos para comparar las verosimilitudes de dos posibles valores de parámetros distintos mediante la prueba de la razón de verosimilitud $\ell(\theta_0) - \ell(\theta_1)$ . La tasa de cambio de la loglikelihood es la función de puntuación $\dot{\ell}(\theta)$ nos dice lo rápido que cambia la probabilidad, y su varianza $I(\theta)$ cuánto varía esto de una muestra a otra, a un valor determinado del parámetro, digamos $\theta_0$ . La ecuación (¡que es realmente sorprendente!) $$ I(\theta) = - \E_\theta \ddot{\ell}(\theta) $$ nos dice que existe una relación (igualdad) entre la variabilidad de la información (probabilidad) para un valor determinado del parámetro, $\theta_0$ y la curvatura de la función de verosimilitud para ese valor del parámetro. Se trata de una relación sorprendente entre la variabilidad (varianza) de este estadístico $\dot{\ell}(\theta) \mid_{\theta=\theta_0}$ y el cambio esperado en la semejanza cuando variamos el parámetro $\theta$ en algún intervalo alrededor de $\theta_0$ (para los mismos datos). Esto es realmente extraño, sorprendente y poderoso.

¿Cuál es la función de probabilidad? Normalmente pensamos en el modelo estadístico $\{ f(x;\theta), \theta \in \Theta \} $ como una familia de distribuciones de probabilidad para los datos $x$ indexado por el parámetro $\theta$ algún elemento del espacio de parámetros $\Theta$ . Pensamos que este modelo es verdadero si existe algún valor $\theta_0 \in \Theta$ de manera que los datos $x$ en realidad tienen la distribución de probabilidad $f(x;\theta_0)$ . Así, obtenemos un modelo estadístico al incrustar la verdadera distribución de probabilidad generadora de datos $f(x;\theta_0)$ en una familia de distribuciones de probabilidad. Pero está claro que esa incrustación puede hacerse de muchas maneras diferentes, y cada una de esas incrustaciones será un modelo "verdadero", y dará diferentes funciones de probabilidad. Y, sin esa incrustación, no hay función de probabilidad. Parece que realmente necesitamos algo de ayuda, algunos principios para elegir una incrustación de forma inteligente.

¿Qué significa esto? Significa que la elección de la función de verosimilitud nos dice cómo esperaríamos que cambiaran los datos, si la verdad cambiara un poco. Pero, esto no puede ser realmente verificado por los datos, ya que los datos sólo dan información sobre la verdadera función del modelo $f(x;\theta_0)$ que realmente generó los datos, y nada sobre los demás elementos del modelo elegido. De este modo, vemos que la elección de la función de verosimilitud es similar a la elección de una prioridad en el análisis bayesiano, ya que inyecta información no relacionada con los datos en el análisis. Veamos esto en un ejemplo sencillo (algo artificial), y observemos el efecto de la incrustación $f(x;\theta_0)$ en un modelo de diferentes maneras.

Supongamos que $X_1, \dotsc, X_n$ son iid como $N(\mu=10, \sigma^2=1)$ . Por lo tanto, esa es la verdadera distribución generadora de datos. Ahora, vamos a incrustar esto en un modelo de dos maneras diferentes, el modelo A y el modelo B. $$ A \colon X_1, \dotsc, X_n ~\text{iid}~N(\mu, \sigma^2=1),\mu \in \mathbb{R} \\ B \colon X_1, \dotsc, X_n ~\text{iid}~N(\mu, \mu/10), \mu>0 $$ se puede comprobar que esto coincide para $\mu=10$ .

Las funciones de loglikelihood se convierten en $$ \ell_A(\mu) = -\frac{n}{2} \log (2\pi) -\frac12\sum_i (x_i-\mu)^2 \\ \ell_B(\mu) = -\frac{n}{2} \log (2\pi) - \frac{n}{2}\log(\mu/10) - \frac{10}{2}\sum_i \frac{(x_i-\mu)^2}{\mu} $$

Las funciones de puntuación: (derivadas de loglikelihood): $$ \dot{\ell}_A(\mu) = n (\bar{x}-\mu) \\ \dot{\ell}_B(\mu) = -\frac{n}{2\mu}- \frac{10}{2}\sum_i (\frac{x_i}{\mu})^2 - 15 n $$ y las curvaturas $$ \ddot{\ell}_A(\mu) = -n \\ \ddot{\ell}_B(\mu) = \frac{n}{2\mu^2} + \frac{10}{2}\sum_i \frac{2 x_i^2}{\mu^3} $$ por lo que la información de Fisher depende realmente de la incrustación. Ahora, calculamos la información de Fisher en el valor verdadero $\mu=10$ , $$ I_A(\mu=10) = n, \\ I_B(\mu=10) = n \cdot (\frac1{200}+\frac{2020}{2000}) > n $$ por lo que la información de Fisher sobre el parámetro es algo mayor en el modelo B.

Esto ilustra que, en cierto sentido, la información de Fisher nos indica la rapidez de la información de los datos sobre el parámetro habría cambiado si el parámetro rector ha cambiado en la forma postulada por la incrustación en una familia de modelos . La explicación de la información superior en el modelo B es que nuestra familia de modelos B postula que si la expectativa hubiera aumentado, entonces la varianza también habría aumentado . De modo que, bajo el modelo B, la varianza de la muestra también llevará información sobre $\mu$ que no lo hará bajo el modelo A.

Además, este ejemplo ilustra que realmente necesitamos algo de teoría para ayudarnos en la construcción de familias de modelos.

2 votos

Gran explicación. ¿Por qué dices que $\E_\theta \dot{\ell}(\theta) =0$ ? es una función de $\theta$ - no es 0 sólo cuando se evalúa en el parámetro verdadero $\theta_0$ ?

1 votos

Sí, lo que dices es cierto, @idadanny Es cero cuando se evalúa en el verdadero valor del parámetro.

0 votos

Gracias de nuevo @kjetil - así que sólo una pregunta más: ¿la sorprendente relación entre la varianza de la puntuación y la curvatura de la probabilidad es cierta para cada $\theta$ ? o sólo en la vecindad del parámetro verdadero $\theta_0$ ?

25voto

usεr11852 Puntos 5514

Complemento a la bonita respuesta de @NeilG (+1) y para abordar tus preguntas concretas:

  1. Yo diría que cuenta la "precisión" más que el "error" en sí.

Recuerde que el hessiano de la log-verosimilitud evaluado en las estimaciones ML es la información observada de Fisher. Los errores estándar estimados son las raíces cuadradas de los elementos diagonales de la inversa de la matriz de información de Fisher observada. La información de Fisher es la traza de la matriz de información de Fisher. traza de la matriz de información de Fisher. Dado que la matriz de información de Fisher $I$ es una matriz hermitiana semidefinida positiva, entonces las entradas diagonales $I_{j,j}$ de ella son reales y no negativas; como consecuencia directa traza $tr(I)$ debe ser positivo. Esto significa que sólo puede haber estimadores "no ideales" según su afirmación. Así que no, una información de Fisher positiva no está relacionada con lo ideal que sea su MLE.

  1. La definición difiere en la forma de interpretar la noción de información en ambos casos. Dicho esto, las dos medidas están estrechamente relacionadas.

La inversa de la información de Fisher es la varianza mínima de un estimador insesgado ( Límite de Cramér-Rao ). En este sentido, la matriz de información indica cuánta información sobre los coeficientes estimados contienen los datos. Por el contrario, la entropía de Shannon se tomó de la termodinámica. Relaciona el contenido de información de un valor particular de una variable como $–p·log_2(p)$ donde $p$ es la probabilidad de que la variable tome el valor. Ambas son medidas de lo "informativa" que es una variable. Sin embargo, en el primer caso se juzga esta información en términos de precisión, mientras que en el segundo caso en términos de desorden; ¡diferentes caras, la misma moneda! :D

Para recapitular: La inversa de la matriz de información de Fisher $I$ evaluado en los valores del estimador ML es la matriz de covarianza asintótica o aproximada. Como los valores del estimador ML se encuentran en un mínimo local, gráficamente la información de Fisher muestra la profundidad de ese mínimo y el margen de maniobra que se tiene alrededor de él. Encontré este artículo de Lutwak et al. en Extensiones de la información de Fisher y la desigualdad de Stam una lectura informativa sobre este asunto. Los artículos de Wikipedia sobre el Métrica de información de Fisher y en Divergencia Jensen-Shannon también son buenos para empezar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X