En este caso, puede considerar una ABC aproximación de la probabilidad (y, en consecuencia, de la MLE ) bajo la siguiente suposición/restricción:
Suposición. El tamaño original de la muestra $n$ es conocido.
No es una suposición descabellada, dado que la calidad, en términos de convergencia, de los estimadores frecuentistas depende del tamaño de la muestra, por lo que no se pueden obtener estimadores arbitrariamente buenos sin conocer el tamaño original de la muestra.
La idea es generar una muestra a partir de la distribución posterior de $\theta$ y, para producir una aproximación de la MLE puede utilizar una técnica de muestreo de importancia como en [1] o considerar una prioridad uniforme sobre $\theta$ con apoyo en un conjunto adecuado como en [2] .
Voy a describir el método en [2]. En primer lugar, permítanme describir el muestreador ABC.
Muestrario ABC
Sea $f(\cdot\vert\theta)$ sea el modelo que genera la muestra donde $\theta \in \Theta$ es un parámetro (que debe estimarse), $T$ sea un estadístico (una función de la muestra) y $T_0$ sea la estadística observada, en la jerga ABC se denomina estadística de síntesis , $\rho$ sea una métrica, $\pi(\theta)$ una distribución a priori sobre $\theta$ y $\epsilon>0$ una tolerancia. Entonces, el muestreador de rechazo ABC puede implementarse de la siguiente manera.
- Muestra $\theta^*$ de $\pi(\cdot)$ .
- Generar una muestra $\bf{x}$ de tamaño $n$ del modelo $f(\cdot\vert\theta^*)$ .
- Compute $T^*=T({\bf x})$ .
- Si $\rho(T^*,T_0)<\epsilon$ aceptar $\theta^*$ como una simulación a partir de la posterior de $\theta$ .
Este algoritmo genera una muestra aproximada de la distribución posterior de $\theta$ dado $T({\bf x})=T_0$ . Por lo tanto, el mejor escenario es cuando la estadística $T$ es suficiente, pero pueden utilizarse otras estadísticas. Para una descripción más detallada, véase este documento .
Ahora bien, en un marco general, si se utiliza una a priori uniforme que contenga la MLE en su soporte, entonces el Máximo a posteriori (MAP) coincide con el Estimador de Máxima Verosimilitud (MLE). Por lo tanto, si se considera una prioridad uniforme apropiada en el Muestreador ABC, entonces se puede generar una muestra aproximada de una distribución posterior cuyo MAP coincide con el MLE. El paso restante consiste en estimar esta moda. Este problema se ha discutido en CV, por ejemplo en "Estimación computacionalmente eficiente del modo multivariante" .
Un ejemplo de juguete
Sea $(x_1,...,x_n)$ sea una muestra de un $N(\mu,1)$ y supongamos que la única información disponible de esta muestra es $\bar{x}=\dfrac{1}{n}\sum_{j=1}^n x_j$ . Sea $\rho$ sea la métrica euclidiana en ${\mathbb R}$ y $\epsilon=0.001$ . El siguiente código R muestra cómo obtener un MLE aproximado utilizando los métodos descritos anteriormente usando una muestra simulada con $n=100$ y $\mu=0$ una muestra de la distribución posterior de tamaño $1000$ una prioridad uniforme para $\mu$ en $(-0.3,0.3)$ y un estimador de densidad kernel para la estimación de la moda de la muestra posterior (MAP=MLE).
# rm(list=ls())
# Simulated data
set.seed(1)
x = rnorm(100)
# Observed statistic
T0 = mean(x)
# ABC Sampler using a uniform prior
N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1
while(i < N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}
# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]
Como se puede ver, utilizando una tolerancia pequeña obtenemos una aproximación muy buena del MLE (que en este ejemplo trivial se puede calcular a partir del estadístico dado que es suficiente). Es importante observar que la elección del estadístico de resumen es crucial. Los cuantiles suelen ser una buena opción para el estadístico de resumen, pero no todas las opciones producen una buena aproximación. Puede darse el caso de que la estadística de resumen no sea muy informativa y entonces la calidad de la aproximación sea mala, lo que es bien conocido en la comunidad ABC.
Actualización: Recientemente se ha publicado un enfoque similar en Fan et al. (2012) . Véase esta entrada para debatir sobre el documento.