Como otros han señalado en los comentarios, la especificación de que una variable "cambia de forma desconocida" no da ninguna información clara que pueda utilizarse en tu problema actual. Además, el objetivo de tu problema no está claro. Si su objetivo es sólo estimar la expectativa que surge del segundo vector de probabilidad, entonces no hay razón para tomar ninguna muestra del primero en absoluto - sólo esperar hasta el cambio y luego muestrear directamente del nuevo vector de probabilidad para estimar su correspondiente energía esperada. Por otro lado, si hay alguna razón para estimar ambos valores de energía esperada, entonces tendrá que formular claramente cuál es su objetivo general. Si quiere encontrar un mecanismo de muestreo óptimo, tendrá que formularlo como un problema de optimización claro.
Teniendo en cuenta todo esto, en lugar de intentar extraer información de tu pregunta que no está ahí, voy a mostrarte cómo podrías formular esto como un problema de optimización bien especificado que represente el tipo de situación que estás describiendo. La formulación que voy a dar es sólo un ejemplo, y puede variarse de muchas maneras. Sin embargo, puede servirle de base para empezar a pensar en cómo quiere formular su problema para tener una optimización bien especificada. En particular, la formulación que doy garantizará que la elección del número de valores de la muestra del segundo vector de probabilidad (después del cambio) se vea afectada por la inferencia del primer vector de probabilidad, que parece ser lo que estás preguntando.
Modelo bayesiano de Dirichlet: Consideremos un modelo Bayesiano Dirichlet jerárquico especificado por:
$$\mathbf{p}'|\mathbf{p} \sim \text{Di}(\kappa \cdot\boldsymbol{p}) \quad \quad \quad \quad \quad \mathbf{p} \sim \text{Di}(\boldsymbol{\alpha}),$$
donde los valores $\kappa$ y $\boldsymbol{\alpha}$ son hiperparámetros. Supongamos que tiene la opción de muestrear de $\mathbf{p})$ antes del cambio de probabilidad, y luego el muestreo de $\mathbf{p}'$ después de este cambio. En concreto, supongamos que se toma la decisión de una sola vez de tomar una muestra $n$ valores de la primera, y después de observar los valores de esta muestra se puede tomar una decisión única de muestreo $n'$ valores de este último. Los vectores observados son:
$$\mathbf{X} \sim \text{Multinomial}(n,\mathbf{p}) \quad \quad \quad \quad \quad \mathbf{X}' \sim \text{Multinomial}(n',\mathbf{p}').$$
Su objetivo es estimar la energía esperada para cada uno de los vectores de probabilidad, con alguna función de pérdida global que depende de sus estimaciones y de los valores reales. Para que el problema no sea trivial, imponemos un coste a las observaciones, que también influye en la función de pérdida.
Pérdida de errores al cuadrado: Supongamos que sus funciones de pérdida en cada etapa de la optimización son:
$$\begin{equation} \begin{aligned} \text{Loss}_1(\mathbf{X}) &= (\langle E \rangle_p - \langle \hat{E} \rangle_p)^2 + c \cdot n, \\[6pt] \text{Loss}_2(\mathbf{X}') &= (\langle E \rangle_p' - \langle \hat{E} \rangle_p')^2 + c \cdot n'. \end{aligned} \end{equation}$$
En esta función de pérdida tenemos una pérdida por error cuadrático en el estimando y también imponemos un coste fijo de $c>0$ para cada observación. El objetivo es minimizar la pérdida esperada en cada etapa del muestreo, lo que da lugar a los tamaños de muestra óptimos.
Resolver el problema de optimización: Resolver este tipo de problema de optimización es un ejercicio bastante extenso, y no lo emprenderé aquí. Lo primero que habría que hacer es determinar los estimadores MAP para los valores de energía esperados bajo tamaños de muestra arbitrarios $n$ y $n'$ . Una vez que haya encontrado la forma de los estimadores, estará en condiciones de encontrar expresiones para la pérdida esperada en cada etapa del muestreo, y minimizar la pérdida esperada en función del tamaño de la muestra.
Dado que el segundo tamaño de la muestra $n'$ se elige después de observar la primera muestra $\mathbf{x}$ tendrá que utilizar la inducción hacia atrás para determinar los tamaños de muestra óptimos. El proceso es el siguiente:
-
Encuentre (o asuma) la forma del estimador $\langle \hat{E} \rangle_p (n,\mathbf{X})$ .
-
Encuentre (o asuma) la forma del estimador $\langle \hat{E} \rangle_p' (n',\mathbf{X'})$ .
-
Encontrar la función de muestreo $\hat{n}'(n, \mathbf{x})$ que resuelve la segunda etapa de la optimización: $$\text{Minimise} \quad F_2(n'|n, \mathbf{x}) \equiv \mathbb{E}(\text{Loss}_2(\mathbf{X}') | n, n', \mathbf{x}).$$
-
Encontrar la función de muestreo $\hat{n}$ que resuelve la primera etapa de la optimización: $$\text{Minimise} \quad F(n) \equiv \mathbb{E}(\text{Loss}_1(\mathbf{X}) + F_2(\hat{n}(n, \mathbf{X})|n, \mathbf{X}) ).$$
Obsérvese que la solución del problema de optimización dependerá en gran medida del valor del coste $c$ . Como $c \rightarrow 0$ las observaciones pasan a ser gratuitas, por lo que los tamaños óptimos de las muestras llegan al infinito, y como $c \rightarrow \infty$ las observaciones se vuelven infinitamente costosas, por lo que el tamaño óptimo de las muestras se reduce a cero. Para conseguir una optimización significativa, habrá que centrar la atención en los tamaños relativos del coste de las observaciones frente a la pérdida por error de estimación.