20 votos

¿Cómo hacer una estimación cuando sólo se dispone de estadísticas resumidas?

Esto se debe en parte a lo siguiente pregunta y el debate posterior.

Supongamos que se observa la muestra iid, $X_i\sim F(x,\theta)$ . El objetivo es estimar $\theta$ . Pero la muestra original no está disponible. Lo que tenemos en su lugar son algunas estadísticas de la muestra $T_1,...,T_k$ . Supongamos que $k$ es fijo. ¿Cómo estimamos $\theta$ ? ¿Cuál sería el estimador de máxima verosimilitud en este caso?

17voto

En este caso, puede considerar una ABC aproximación de la probabilidad (y, en consecuencia, de la MLE ) bajo la siguiente suposición/restricción:

Suposición. El tamaño original de la muestra $n$ es conocido.

No es una suposición descabellada, dado que la calidad, en términos de convergencia, de los estimadores frecuentistas depende del tamaño de la muestra, por lo que no se pueden obtener estimadores arbitrariamente buenos sin conocer el tamaño original de la muestra.

La idea es generar una muestra a partir de la distribución posterior de $\theta$ y, para producir una aproximación de la MLE puede utilizar una técnica de muestreo de importancia como en [1] o considerar una prioridad uniforme sobre $\theta$ con apoyo en un conjunto adecuado como en [2] .

Voy a describir el método en [2]. En primer lugar, permítanme describir el muestreador ABC.

Muestrario ABC

Sea $f(\cdot\vert\theta)$ sea el modelo que genera la muestra donde $\theta \in \Theta$ es un parámetro (que debe estimarse), $T$ sea un estadístico (una función de la muestra) y $T_0$ sea la estadística observada, en la jerga ABC se denomina estadística de síntesis , $\rho$ sea una métrica, $\pi(\theta)$ una distribución a priori sobre $\theta$ y $\epsilon>0$ una tolerancia. Entonces, el muestreador de rechazo ABC puede implementarse de la siguiente manera.

  1. Muestra $\theta^*$ de $\pi(\cdot)$ .
  2. Generar una muestra $\bf{x}$ de tamaño $n$ del modelo $f(\cdot\vert\theta^*)$ .
  3. Compute $T^*=T({\bf x})$ .
  4. Si $\rho(T^*,T_0)<\epsilon$ aceptar $\theta^*$ como una simulación a partir de la posterior de $\theta$ .

Este algoritmo genera una muestra aproximada de la distribución posterior de $\theta$ dado $T({\bf x})=T_0$ . Por lo tanto, el mejor escenario es cuando la estadística $T$ es suficiente, pero pueden utilizarse otras estadísticas. Para una descripción más detallada, véase este documento .

Ahora bien, en un marco general, si se utiliza una a priori uniforme que contenga la MLE en su soporte, entonces el Máximo a posteriori (MAP) coincide con el Estimador de Máxima Verosimilitud (MLE). Por lo tanto, si se considera una prioridad uniforme apropiada en el Muestreador ABC, entonces se puede generar una muestra aproximada de una distribución posterior cuyo MAP coincide con el MLE. El paso restante consiste en estimar esta moda. Este problema se ha discutido en CV, por ejemplo en "Estimación computacionalmente eficiente del modo multivariante" .

Un ejemplo de juguete

Sea $(x_1,...,x_n)$ sea una muestra de un $N(\mu,1)$ y supongamos que la única información disponible de esta muestra es $\bar{x}=\dfrac{1}{n}\sum_{j=1}^n x_j$ . Sea $\rho$ sea la métrica euclidiana en ${\mathbb R}$ y $\epsilon=0.001$ . El siguiente código R muestra cómo obtener un MLE aproximado utilizando los métodos descritos anteriormente usando una muestra simulada con $n=100$ y $\mu=0$ una muestra de la distribución posterior de tamaño $1000$ una prioridad uniforme para $\mu$ en $(-0.3,0.3)$ y un estimador de densidad kernel para la estimación de la moda de la muestra posterior (MAP=MLE).

# rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0 = mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i < N+1){
  u = runif(1,-0.3,0.3)
  t.samp = rnorm(100,u,1)
  Ts = mean(t.samp)
  if(abs(Ts-T0)<eps){
    ABCsamp[i]=u
    i=i+1
    print(i)
  }
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

Como se puede ver, utilizando una tolerancia pequeña obtenemos una aproximación muy buena del MLE (que en este ejemplo trivial se puede calcular a partir del estadístico dado que es suficiente). Es importante observar que la elección del estadístico de resumen es crucial. Los cuantiles suelen ser una buena opción para el estadístico de resumen, pero no todas las opciones producen una buena aproximación. Puede darse el caso de que la estadística de resumen no sea muy informativa y entonces la calidad de la aproximación sea mala, lo que es bien conocido en la comunidad ABC.

Actualización: Recientemente se ha publicado un enfoque similar en Fan et al. (2012) . Véase esta entrada para debatir sobre el documento.

6voto

Lev Puntos 2212

Todo depende de si la distribución conjunta de esos $T_i$ es conocida. Si lo es, por ejemplo, $$ (T_1,\ldots,T_k)\sim g(t_1,\ldots,t_k|\theta,n) $$ entonces se puede realizar una estimación de máxima verosimilitud basada en esta distribución conjunta. Tenga en cuenta que, a menos que $(T_1,\ldots,T_k)$ es suficiente, ésta será casi siempre una máxima verosimilitud diferente que cuando se utilizan los datos brutos $(X_1,\ldots,X_n)$ . Será necesariamente menos eficiente, con una varianza asintótica mayor.

Si la distribución conjunta anterior con densidad $g$ no está disponible, la solución propuesta por Procrastinador es bastante apropiado.

1voto

julien stirnemann Puntos 289

El estimador (frecuentista) de máxima verosimilitud es el siguiente:

Para $F$ en la familia exponencial, y si sus estadísticas son suficientes su probabilidad a maximizar siempre se puede escribir en la forma: $$ l(\theta| T) = \exp\left( -\psi(\theta) + \langle T,\phi(\theta) \rangle \right), $$ donde $\langle \cdot, \cdot\rangle$ es el producto escalar, $T$ es el vector de estadísticas suf. y $\psi(\cdot)$ y $\phi(\cdot)$ son continuas dos veces diferenciables.

La forma de maximizar la probabilidad depende sobre todo de la posibilidad de escribir la probabilidad analíticamente de forma manejable. Si esto es posible, podrá considerar algoritmos de optimización generales (newton-raphson, simplex...). Si no tiene una verosimilitud manejable, puede que le resulte más fácil calcular una expectativa condicional como en el algoritmo EM, que también producirá estimaciones de máxima verosimilitud con hipótesis bastante asequibles.

Mejor

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X