19 votos

Bootstrap vs Monte Carlo, estimación de errores

Estoy leyendo el artículo Propagación de errores por el método de Monte Carlo en cálculos geoquímicos, Anderson (1976) y hay algo que no entiendo bien.

Considere algunos datos medidos $\{A\pm\sigma_A, B\pm\sigma_B, C\pm\sigma_C\}$ y un programa que lo procesa y devuelve un valor determinado. En el artículo, este programa se utiliza para obtener primero el mejor valor utilizando la media de los datos (es decir $\{A, B, C\}$ ).

A continuación, el autor utiliza un método de Monte Carlo para asignar una incertidumbre a este mejor valor, variando los parámetros de entrada dentro de sus límites de incertidumbre (dados por una distribución gaussiana con medias $\{A, B, C\}$ y desviaciones estándar $\{\sigma_A, \sigma_B, \sigma_C\}$ ) antes de alimentar el programa. Esto se ilustra en la figura siguiente:

enter image description here

( Derechos de autor: ScienceDirect )

donde la incertidumbre se puede obtener a partir del $Z$ distribución.

¿Qué pasaría si, en lugar de este método de Montecarlo, aplicara un método bootstrap? Algo así:

enter image description here

Esto es: en lugar de variar los datos dentro de sus incertidumbres antes de introducirlos en el programa, hago un muestreo con reemplazo a partir de ellos.

¿Cuáles son las diferencias entre estos dos métodos en este caso? ¿Qué advertencias debo tener en cuenta antes de aplicar cualquiera de ellos?


Soy consciente de esta cuestión Bootstrap, Monte Carlo pero no resuelve del todo mi duda ya que, en este caso, los datos contienen incertidumbres asignadas.

0 votos

Sólo para aclarar: ¿el "cambio aleatorio" en el método MC es generado aleatoriamente por el investigador? Es decir, ¿se añaden artificialmente ruidos/errores a los datos de entrada?

0 votos

Se "genera aleatoriamente", basándose en las incertidumbres de los datos medidos (es decir $\sigma$ s) y asumiendo una determinada distribución para estos errores (normalmente gaussiana). Así que no, los errores no se añaden artificialmente. Los datos de entrada tienen un error asociado dado por el proceso de medición.

0 votos

Creo que no lo entiendo. Eso es ruido artificial, pero con una desviación estándar estimada a partir de los datos

20voto

Lev Puntos 2212

Por lo que entiendo de su pregunta, la diferencia entre el enfoque "Monte Carlo" y el enfoque bootstrap es esencialmente la diferencia entre la estadística paramétrica y la no paramétrica.

En el marco paramétrico, se sabe exactamente cómo los datos $x_1,\ldots,x_N$ se genera, es decir, dados los parámetros del modelo ( $A$ , $\sigma_A$ etc. en su descripción), puede producir nuevas realizaciones de dichos conjuntos de datos y, a partir de ellas, nuevas realizaciones de su procedimiento estadístico (o "resultado"). De este modo, es posible describir completa y exactamente la distribución de probabilidad del resultado $Z$ por derivaciones matemáticas o por un experimento de Monte Carlo que devuelva una muestra de tamaño arbitrario de esta distribución.

En el marco no paramétrico, no se desea hacer tales suposiciones sobre los datos y, por tanto, se utilizan los datos y sólo los datos para estimar su distribución, $F$ . El bootstrap es un enfoque de este tipo en el que la distribución desconocida se estima mediante la distribución empírica $\hat F$ realizado mediante la fijación de un peso de probabilidad de $1/n$ en cada punto de la muestra (en el caso más sencillo cuando los datos son iid). Utilizando esta distribución empírica $\hat F$ en sustitución de la verdadera distribución $F$ se puede obtener mediante simulaciones de Monte Carlo la distribución estimada de la salida $Z$ .

Por lo tanto, la principal diferencia entre ambos enfoques es si se hace o no se hace esta suposición paramétrica sobre la distribución de los datos.

5 votos

Casi dos años después, creo que ésta es la mejor respuesta porque menciona explícitamente la diferencia entre los enfoques paramétrico y no paramétrico (que yo no conocía entonces).

0 votos

Pero para el enfoque paramétrico también se puede utilizar el bootstrap paramétrico ¿no?

0 votos

No, al menos no en el sentido "paramétrico". Recuerde que en el paradigma paramétrico creemos conocer exactamente los parámetros de los datos Y (en este caso) la función generadora de datos que hay detrás de los mismos. Cuando utilizamos monte carlo, estamos afirmando que conocemos TANTO los verdaderos parámetros de los datos COMO que se trata de una determinada distribución (por ejemplo, la función generadora de datos). En el bootstrapping, afirmamos que el parámetro de los datos procede de una muestra que hemos recogido (¡no de la población!), por lo que dicho parámetro no representa el verdadero parámetro de la población y, por tanto, no es paramétrico.

12voto

Nixit Patel Puntos 34

El cambio aleatorio en su modelo de Montecarlo está representado por una curva de campana y el cálculo probablemente asume que el "error" o "cambio" se distribuye normalmente. Al menos, su ordenador necesita alguna suposición sobre la distribución de la que extraer el "cambio". El Bootstrapping no hace necesariamente esas suposiciones. Toma las observaciones como observaciones y si su error se distribuye asimétricamente, entonces entra en el modelo de esa manera.

El Bootstrapping se basa en la observación y, por tanto, necesita un número de observaciones reales. Si lees en un libro que C tiene una media de 5 con una desviación estándar de 1, puedes crear un modelo de Montecarlo aunque no tengas observaciones de las que partir. Si la observación es escasa (piense en la astronomía), puede crear un modelo de Montecarlo con 6 observaciones y algunas suposiciones sobre su distribución, pero no hará un bootstrap a partir de 6 observaciones.

Son posibles los modelos mixtos con algunas entradas extraídas de datos observados y otras de datos simulados (digamos hipotéticos).

Editar: En la siguiente discusión en los comentarios, el cartel original encontró lo siguiente útil:

Al "programa original" no le importa, si obtiene un valor, que calculó a partir de una media y una desviación o que es una verdadera realización de una media y una desviación en un proceso natural.

1 votos

Gracias por su respuesta, Bernhard. Me surgen algunas preguntas. 1. ¿Estoy entendiendo correctamente que la única (¿principal?) diferencia entre estos dos métodos es que el MC necesita asumir una distribución para las incertidumbres mientras que el bootstrap no? 2. Si tuviera un conjunto de datos suficientemente grande y realizara la iteración numerosas veces ( $N\to\infty$ ), ¿convergerían entonces estos dos métodos en la incertidumbre estimada asignada al mejor valor ? 3. ¿No estoy descartando datos valiosos al no utilizar las incertidumbres asignadas a los datos de entrada en el método bootstrap?

1 votos

Soy autodidacta estadístico/máquico, así que no voy a afirmar que ninguna de las diferencias que he mencionado sean las únicas. Ni siquiera estoy seguro de si el Bootstrapping se considera un método Monte Carlo en sí mismo. Ambos algoritmos simulan un gran número de escenarios realistas. Se puede obtener la información a partir de suposiciones o de observaciones. Mi campo es la medicina y las suposiciones son notoriamente erróneas en ese campo. Por lo tanto, yo trataría de utilizar las observaciones siempre que estén disponibles en un número suficientemente grande. Es posible que en un campo más cercano a la física o la química...

1 votos

...que en campos más cercanos a la física o la química, las suposiciones son más fiables. En cuanto al punto 2: Si vas por muestras e iteraciones lo suficientemente grandes supongo que te darás cuenta de que los datos reales nunca se distribuyen verdaderamente de forma normal y que tus suposiciones siempre están un poco equivocadas, pero no puedo afirmar que lo sepa. En cuanto al punto 3: no estoy seguro de haber entendido lo que quieres decir con descartar datos valiosos en el método bootstrap. La "asignación de incertidumbre" está hecha por el hombre, los datos provienen de la realidad. De nuevo, esta es mi creencia basada en mi campo. En la realidad, rara vez se tendrá una buena teoría y grandes datos

1voto

Sir_Yaro Puntos 21

Si la función que relaciona la salida Z con las entradas es razonablemente lineal (es decir, dentro del rango de variación de las entradas), la varianza de Z es una combinación de las varianzas y covarianzas de las entradas. Los detalles de la distribución no importan demasiado... Por lo tanto, ambos métodos deberían dar resultados similares.

Ver el Suplemento 1 de la GUM

0 votos

¿Qué sucede cuando la función es no ¿Razonablemente lineal? ¿En qué se diferencian entonces estos dos métodos?

0 votos

En ese caso, debes consultar la respuesta anterior, de Bernhard. Es decir, para que coincidan, deberías tener una descripción fiel de los datos pdf de Montecarlo.

0voto

johv Puntos 191

Bootstrap significa dejar que los datos hablen por sí mismos. Con el método de Montecarlo, se muestrean muchas extracciones aleatorias de la FCD impuesta (normal; gamma; beta...) mediante una distribución uniforme y se crea una FDP empírica (siempre que la FCD sea continua y derivable). Una explicación interesante de todo el proceso de Monte Carlo se encuentra en: Briggs A, Schulper M, Claxton K. Decision modelling for health economic evaluation. Oxford: Oxford University Press, 2006: 93-95.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X