Aquí está mi opinión sobre esta cuestión. Voy a suponer que:
- $X_i \sim \mathcal{N}(\mu, \sigma^2)$, y el $X_i$'s son independientes
- $\mu$ es desconocido
- $\sigma^2$ es conocido (voy a hablar de esta suposición más tarde.)
Parte 1: estimación ML dado algunos datos
Primero, considere el caso en el que se dan algunos datos, y queremos estimar $\mu$. Indicar los datos por $\mathcal{D} = \{ (y_i, t_i) \mid i = 1, \ldots, n \}$ donde $y_i \in \mathbf{R}$ y
$$
t_i = \begin{cases}
1 & \text{if %#%#% > %#%#%} \\
0 & \text{otherwise}
\end{casos}
$$
Tenga en cuenta que yo uso una letra minúscula para $X_i$ destacar que es un valor que podemos observar, como contraposición a $y_i$.
Tenemos
$$
P(t_i = 1 \mediados de y_i) = P(X_i > y_i) = \Phi\left( \frac{\mu - y_i}{\sigma} \right)
$$
y la probabilidad de $y_i$ dado que los datos se
$$
\ell(\mu ; \mathcal{D}) = \prod_{i=1}^{n} \left( \Phi\left( \frac{\mu - y_i}{\sigma} \right) \right)^{t_i} \left( 1- \Phi\left( \frac{\mu - y_i}{\sigma} \right) \right)^{1-t_i} \qquad (*)
$$
Esta función es registro-cóncavo, y tiene un único maximizer si hay al menos un $X_i$ tal que $\mu$, y al menos uno de los $i$ tal que $t_i = 1$.
Además, sospecho que el maximizer es independiente del valor de $i$ (a ser activado).
Parte 2: aprendizaje Activo
Creo que esta es la parte más interesante. Aquí, vamos a suponer que usted comience con $t_i = 0$, y desea de forma iterativa elegir un valor de $\sigma^2$ y observar el correspondiente $\mathcal{D} = \varnothing$, de tal manera que "aprender más" acerca de $y_i$.
Hay muchas maneras de ir sobre esto; en el siguiente, estoy tomando un enfoque bayesiano. Comenzar por el supuesto de una distribución previa en $t_i$, dicen
$$
\mu \sim \mathcal{N}(0, \tau^2)
$$
Dado que algunos de los datos de $\mu$, su conocimiento acerca de la $\mu$ está contenida en la parte posterior distribución
$$
p(\mu \mid \mathcal{D}) \propto p(\mathcal{D} \mid \mu) p(\mu)
$$
Por desgracia, esta posterior no es analíticamente manejable para la probabilidad dada por encima de $\mathcal{D}$. Una forma práctica de evitar este problema es aproximar la parte posterior con una distribución de Gauss, que es "lo más cercano" a la verdadera posterior, en algún sentido. En particular, la Expectativa de propagación y el Variacional de Gauss aproximación vienen a la mente.
Una manera de ir sobre cómo seleccionar un valor que conduce a una gran cantidad de "información" acerca de $\mu$ es con avidez maximizar la reducción esperada en la entropía de la parte posterior. De manera informal, la entropía de la parte posterior dice cómo "seguro" que están sobre el valor de $(*)$, y usted querrá elegir un $\mu$ que es probable que para reducir esta incertidumbre (digo "probablemente" porque va a depender del resultado $\mu$).
En este caso particular, como nos acaba de estimar un parámetro único, la reducción de la entropía puede ser entendido a ser simplemente la reducción de la varianza de la parte posterior.
Conjetura. deje $y_i$ ser la parte posterior de la en $t_i$ después $p_i$ pasos (en particular, $\mu$).
Entonces, el punto de $i$ que maximiza la reducción esperada en la parte posterior de la entropía está dada por
$$
y_{i+1} = \mathbf{E}_{p_i}(\mu)
$$
Básicamente, mi conjetura es decir: sólo muestra en su actual de la mejor estimación de $p_0 = \mathcal{N}(0, \tau^2)$!
De nuevo, creo que la suposición de que $y_{i+1}$ es fijo no es demasiado importante. Tengo la impresión de que lo que importa realmente es la relación $\mu$. (Esto es nuevo para ser activada.)