4 votos

Monte Carlo con error en muestras individuales

Estoy realizando una integración de Monte Carlo donde las muestras individuales tienen un error, y me pregunto cómo estimar el error final.

Algunos detalles más: La integral E que busco se estima en el Monte Carlo como

$\langle E\ \rangle\approx\frac{\sum_ke_k\ F_k}{\sum_kF_k}\ ,\ \ \ \ \ \ $ (1)

donde el denominador proviene de la normalización. El individuo $F_k$ tienen errores $\sigma_k$ propios (en realidad se calculan con un Monte Carlo secundario), en forma de desviación estándar en torno a la media. Este error $\sigma_k$ depende del número de muestras $m$ que hay en el MC secundario.

Pero resulta que $\langle E\ \rangle$ "heredan" estos errores de forma no simétrica. En concreto, si se toma uno de los $F_k$ e intercambiando $F_k\rightarrow F_k+\sigma_k$ o $F_k\rightarrow F_k-\sigma_k$ , lo que lleva a un $\langle E\ \rangle_+$ y $\langle E\ \rangle_-$ respectivamente, siempre encuentro

$\mathcal{D}=\frac{\big|\ \langle E\ \rangle_+-\ \langle E\ \rangle\ \big|}{\big|\ \langle E\ \rangle_--\ \langle E\ \rangle\ \big|}<1\ \ \ \ \ \ \ \ $ y $\ \ \ \ \ \ \ \ \langle E\ \rangle_-<\langle E\ \rangle_+\ .$

Como es de esperar $\mathcal{D}$ se reduce con $m$ (ya que los errores $\sigma_k$ se hacen más pequeños) y con el número $n$ de muestras en el Monte Carlo principal (ya que tanto el numerador como el denominador en (1) se hacen más grandes).

Ahora mi pregunta es cómo estimar los errores en (1). Normalmente se utilizaría simplemente la desviación estándar, que en este caso podría encontrarse utilizando el bloqueo, el jackknife o, probablemente, el bootstrap más estable. Pero parece que esto no va a funcionar en este caso, ya que hay una especie de error sistemático involucrado (es decir, que $\langle E\ \rangle$ disminuirá con $m$ ).

Para tratar de probar esto, intenté ejecutar el Monte Carlo principal varias veces para diferentes tipos de parámetros. Y efectivamente veo que en general el resultado disminuye con $m$ Y lo que es más importante, haciendo la misma ejecución (mismos parámetros) varias veces obtengo una mayor variación en las respuestas de lo que cabría esperar de la desviación estándar de la media $\frac{\sigma}{\sqrt{n-1}}$ calculado a partir de (1) utilizando diferentes métodos, incluido el bootstrap.

Por supuesto, podría utilizar esta variación de varias medias calculadas como una estimación del error, pero, en primer lugar, esto podría no ser robusto debido a un comportamiento similar al del error sistemático y, en segundo lugar, esto significaría que tengo que realizar un montón de cálculos adicionales sólo para obtener el error.

Alguna idea sobre cómo encontrar el error real en $\langle E\ \rangle$ ?

1voto

Eric Riese Puntos 11

Es posible que desee comprobar su muestreo con respecto a la asimetría. Eso sugiere que de alguna manera se está introduciendo un sesgo en cualquier subproceso de Monte Carlo que esté mostrando esa incertidumbre asimétrica, o que esos subprocesos aún no han alcanzado el equilibrio.

He observado algo similar al recoger accidentalmente puntos de muestreo no uniformes en una esfera. Si elijo ingenuamente un $\mathsf { x<r }$ y luego elegir y a través del resto $\mathsf { y<\sqrt{r^2-x^2} }$ ángulos , lo más habitual es que obtenga ángulos a 90 grados un eje polar arbitrario (un punto de la superficie y el centro de la esfera). Por lo tanto, si estoy haciendo un muestreo de Boltzmann basado en $E\left(\theta+\delta\right)=E\left(\theta-\delta\right)$ mi energía será simétrica, pero es discutible ya que si mi ángulo central $\mathsf {\theta_0=114°} $ así $\mathsf {\theta=110°} $ y $\mathsf {\theta=118°} $ producirán tasas de aceptación iguales (según el esquema de muestreo de Boltzmann), pero el ángulo mayor se elegirá con menos frecuencia (lo que puede visualizarse mentalmente, ya que traza una sección transversal circular más pequeña de la esfera frente al ángulo más central). Por lo tanto, he introducido un sesgo sutil que está empujando mi ángulo de equilibrio a algo distinto de $\mathsf { \theta_{avg}<\theta_0=114° }$ .

Estoy bastante seguro de que tu resultado matemático significa que tus procesos asimétricos están tomando muestras en desequilibrio o de forma sesgada. La cuestión es si eso es intencional.

Si no lo es, puedes arreglarlo. Su probabilidad debería ahora seguir la propogación estándar de errores:

El denominador debe venir dado por la fórmula de propogación de errores para una media [fuente] : $$\mathsf \langle \sum_kF_k \rangle=\sqrt{\sum_k{\left(\sigma_k-\overline{\sigma}\right)}^2}\,\,\,\,\,\,\,\,\,\,\,\,\,\,(1)$$

Voy a suponer que $\mathsf e_k$ es una salida con incertidumbre numérica propia (debido a la naturaleza estocástica del muestreo) que va a cero a medida que se muestrean más estados. Llamemos a la incertidumbre relativa de esta cantidad como: $$\mathsf \langle \delta e_k \rangle$$ Así que el error en el numerador según la regla del producto aplicada a través de la regla de la cadena a la forma media debería ser algo así como $$ \mathsf \langle \sum_ke_kF_k \rangle =\sqrt{\sum_k{\left(\langle e_kF_k \rangle-\overline{\langle e_kF_k \rangle}\right)}^2}\,\,\,\,\,\,\,\,\,\,\,\,\,\,(2)$$ donde $$\mathsf \langle e_kF_k \rangle=\sqrt{{\left(\frac{\langle \delta e_k \rangle}{e_k}\right)}^2+{\left(\frac{\sigma_k}{F_k}\right)}^2}\,\,\,\,\,\,\,\,\,\,\,\,\,\,(3)$$ Por último, la ecuación (1) y (2) todo esto junto, tienes a través de la regla de división para el numerador y el denominador: $$\mathsf \langle E \rangle =\sqrt{{\left(\frac{\langle \sum_ke_kF_k \rangle}{\sum_ke_kF_k}\right)}^2+{\left(\frac{\langle \sum_kF_k \rangle}{\sum_kF_k}\right)}^2}$$

Si efectivamente su sesgo se debe a un error o a un no-equilibrio y su intención es muestrear sin sesgo ni equilibrio, ajuste sus simulaciones de Monte Carlo para equilibrar adecuadamente y eliminar los sesgos, entonces utilice la derivación anterior. (Si este es el caso y usted utiliza la fórmula en un trabajo publicado, por favor cite/reconozca mi contribución y envíeme una nota al respecto a jason.is.coding@gfilter.com (sustituya "filtro" por "correo"), o simplemente déjeme una nota aquí en los comentarios.

Si su intención es, en efecto, muestrear con un sesgo no eliminado (lo que viola el equilibrio detallado si está utilizando el esquema de muestreo Metropolis-Hastings) le sugiero que consulte El documento de Barlow de 2003 (arXiv:physics/0306138v1) sobre un medio de propagar/cuantificar la incertidumbre en un esquema de muestreo asimétrico. La idea básica es sumar los errores asimétricos en ambas direcciones y dividir por $\mathsf 2 $ o $\mathsf { \sqrt{2\pi} }$ es decir $$\mathsf {\sigma=\frac{\sigma^{+}+\sigma^{-}}{2}}$$ La verdadera clave es la introducción de un factor de asimetría: $$\mathcal{A}\mathsf{=\frac{\sigma^{+}-\sigma^{-}}{\sigma^{+}+\sigma^{-}}}$$ También hay un factor de diferencia ( $\mathsf\alpha$ ).

Para combinar el asimétrico y el no asimétrico, supongo que sólo habría que seguir sus reglas de combinación con $\mathcal{A}\mathsf{=1}$ y $\mathsf {\alpha=0}$ . Sin embargo, parece que eso es bastante enrevesado/no trivial, así que probablemente quieras estar seguro de que eso es realmente lo que pretendes hacer.

Pero suponiendo que sea necesario, debería haber suficiente para proporcionarle al menos una solución analítica en relación con las distribuciones de error individuales resueltas numéricamente.

Probablemente haya más propuestas de cómo hacerlo si buscas "errores asimétricos". También he encontrado este documento del MIT sobre el tema que sugiere un esquema ligeramente diferente. No soy un experto en particular en ese campo de las matemáticas, pero basándome en una búsqueda rápida en portales de búsqueda académicos parece ser un campo algo nuevo sin un consenso claro. Mi mejor conjetura es que eso se debe al hecho de que en la mayoría de los casos este tipo de distribución, como mi experiencia con la selección de ángulos, representa un error y no la verdadera intención de introducir un sesgo (y no un sesgo de alguna fuente no uniforme que esté midiendo).

Si se opta por esa vía, parece que la mejor opción es elegir un esquema y ceñirse a él. El de Barlow parece bastante bien explicado aunque, de nuevo, las reglas de combinación parecen bastante desafiantes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X