5 votos

Estimación de la media con conocimiento previo

Tengo una distribución de probabilidad desconocida (discreta) $p=\{p_s\}$ , donde $p_s$ es la probabilidad de observar la configuración $s$ . A cada configuración se le asocia una energía que puedo calcular $E_s$ .

Si quiero estimar la media

$$ \langle E \rangle_p := \sum_s E_s p_s \ \ \ \ (1) $$

mediante el dibujo $N$ muestras, utilizaré claramente el estimador de la media muestral:

$$ M_E := \frac{1}{N} \sum_j E_j \ \ \ \ (2) $$

donde $E_j$ es la energía que obtuve en el $j-$ El sorteo.

En este punto algo sucede y mi distribución $p_s$ se modifica sólo un poco, pero de forma desconocida, es decir, la nueva distribución es

$$ p_s \to p'_s = p_s +\delta p_s. $$

La energía de cada configuración no cambia.

Ahora me gustaría estimar la nueva media

$$ \langle E \rangle_{p'} := \sum_s E_s p'_s $$

¿Hay alguna manera de hacerlo, que tenga en cuenta que tengo algunos conocimientos de $p'$ [es decir, ya he estimado (1) a través de (2)]? El objetivo es minimizar el número de muestras $N$ que hay que tomar.

EDIT

Permítanme añadir algo sobre por qué esto puede no ser inútil. Por un lado, una vez que mi distribución cambió, sin tomar ninguna muestra adicional Simplemente puedo adivinar la media con la estimación anterior. La pregunta es esencialmente si puedo hacerlo mejor que eso?

Por otro lado puedo suponer que mi perturbación es del orden $\epsilon$ ¿puedo obtener una estimación de la nueva media hasta el mismo orden (al menos aproximadamente)?

Me interesaría cualquier referencia o incluso un teorema o argumento de no-go.

EDITAR 2

Esperaba que algo como el filtrado de Kalman o la inferencia bayesiana pudiera servir, pero sé muy poco en ese campo.

3voto

Aaron Puntos 36

Como otros han señalado en los comentarios, la especificación de que una variable "cambia de forma desconocida" no da ninguna información clara que pueda utilizarse en tu problema actual. Además, el objetivo de tu problema no está claro. Si su objetivo es sólo estimar la expectativa que surge del segundo vector de probabilidad, entonces no hay razón para tomar ninguna muestra del primero en absoluto - sólo esperar hasta el cambio y luego muestrear directamente del nuevo vector de probabilidad para estimar su correspondiente energía esperada. Por otro lado, si hay alguna razón para estimar ambos valores de energía esperada, entonces tendrá que formular claramente cuál es su objetivo general. Si quiere encontrar un mecanismo de muestreo óptimo, tendrá que formularlo como un problema de optimización claro.

Teniendo en cuenta todo esto, en lugar de intentar extraer información de tu pregunta que no está ahí, voy a mostrarte cómo podrías formular esto como un problema de optimización bien especificado que represente el tipo de situación que estás describiendo. La formulación que voy a dar es sólo un ejemplo, y puede variarse de muchas maneras. Sin embargo, puede servirle de base para empezar a pensar en cómo quiere formular su problema para tener una optimización bien especificada. En particular, la formulación que doy garantizará que la elección del número de valores de la muestra del segundo vector de probabilidad (después del cambio) se vea afectada por la inferencia del primer vector de probabilidad, que parece ser lo que estás preguntando.


Modelo bayesiano de Dirichlet: Consideremos un modelo Bayesiano Dirichlet jerárquico especificado por:

$$\mathbf{p}'|\mathbf{p} \sim \text{Di}(\kappa \cdot\boldsymbol{p}) \quad \quad \quad \quad \quad \mathbf{p} \sim \text{Di}(\boldsymbol{\alpha}),$$

donde los valores $\kappa$ y $\boldsymbol{\alpha}$ son hiperparámetros. Supongamos que tiene la opción de muestrear de $\mathbf{p})$ antes del cambio de probabilidad, y luego el muestreo de $\mathbf{p}'$ después de este cambio. En concreto, supongamos que se toma la decisión de una sola vez de tomar una muestra $n$ valores de la primera, y después de observar los valores de esta muestra se puede tomar una decisión única de muestreo $n'$ valores de este último. Los vectores observados son:

$$\mathbf{X} \sim \text{Multinomial}(n,\mathbf{p}) \quad \quad \quad \quad \quad \mathbf{X}' \sim \text{Multinomial}(n',\mathbf{p}').$$

Su objetivo es estimar la energía esperada para cada uno de los vectores de probabilidad, con alguna función de pérdida global que depende de sus estimaciones y de los valores reales. Para que el problema no sea trivial, imponemos un coste a las observaciones, que también influye en la función de pérdida.

Pérdida de errores al cuadrado: Supongamos que sus funciones de pérdida en cada etapa de la optimización son:

$$\begin{equation} \begin{aligned} \text{Loss}_1(\mathbf{X}) &= (\langle E \rangle_p - \langle \hat{E} \rangle_p)^2 + c \cdot n, \\[6pt] \text{Loss}_2(\mathbf{X}') &= (\langle E \rangle_p' - \langle \hat{E} \rangle_p')^2 + c \cdot n'. \end{aligned} \end{equation}$$

En esta función de pérdida tenemos una pérdida por error cuadrático en el estimando y también imponemos un coste fijo de $c>0$ para cada observación. El objetivo es minimizar la pérdida esperada en cada etapa del muestreo, lo que da lugar a los tamaños de muestra óptimos.

Resolver el problema de optimización: Resolver este tipo de problema de optimización es un ejercicio bastante extenso, y no lo emprenderé aquí. Lo primero que habría que hacer es determinar los estimadores MAP para los valores de energía esperados bajo tamaños de muestra arbitrarios $n$ y $n'$ . Una vez que haya encontrado la forma de los estimadores, estará en condiciones de encontrar expresiones para la pérdida esperada en cada etapa del muestreo, y minimizar la pérdida esperada en función del tamaño de la muestra.

Dado que el segundo tamaño de la muestra $n'$ se elige después de observar la primera muestra $\mathbf{x}$ tendrá que utilizar la inducción hacia atrás para determinar los tamaños de muestra óptimos. El proceso es el siguiente:

  • Encuentre (o asuma) la forma del estimador $\langle \hat{E} \rangle_p (n,\mathbf{X})$ .

  • Encuentre (o asuma) la forma del estimador $\langle \hat{E} \rangle_p' (n',\mathbf{X'})$ .

  • Encontrar la función de muestreo $\hat{n}'(n, \mathbf{x})$ que resuelve la segunda etapa de la optimización: $$\text{Minimise} \quad F_2(n'|n, \mathbf{x}) \equiv \mathbb{E}(\text{Loss}_2(\mathbf{X}') | n, n', \mathbf{x}).$$

  • Encontrar la función de muestreo $\hat{n}$ que resuelve la primera etapa de la optimización: $$\text{Minimise} \quad F(n) \equiv \mathbb{E}(\text{Loss}_1(\mathbf{X}) + F_2(\hat{n}(n, \mathbf{X})|n, \mathbf{X}) ).$$

Obsérvese que la solución del problema de optimización dependerá en gran medida del valor del coste $c$ . Como $c \rightarrow 0$ las observaciones pasan a ser gratuitas, por lo que los tamaños óptimos de las muestras llegan al infinito, y como $c \rightarrow \infty$ las observaciones se vuelven infinitamente costosas, por lo que el tamaño óptimo de las muestras se reduce a cero. Para conseguir una optimización significativa, habrá que centrar la atención en los tamaños relativos del coste de las observaciones frente a la pérdida por error de estimación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X