He estado trabajando en la incertidumbre asociada a una cantidad calculada a partir de un proyecto de Monte Carlo. Normalmente utilizaría el método bootstrap por remuestreo con reemplazo, por un par de razones técnicas eso no es particularmente fácil aquí. Me sugirieron que simplemente dividiera mi conjunto de datos de MC y realizara el experimento con estos subconjuntos y encontrara la incertidumbre de esa manera. En el pasado he encontrado referencias al bootstrap con sólo un subconjunto del conjunto de datos original.
¿Puede alguien indicarme un tutorial sobre esto o explicarme brevemente en qué se diferencia del bootstrapping con reemplazo y de la simple fijación del número de muestras en una fracción del tamaño total? Estaría particularmente interesado en un método que significara que $n$ podría ser diferente para cada submuestra, esto haría mi análisis mucho más sencillo.
1 votos
Creo que tenemos que escuchar más sobre por qué no se puede simplemente volver a muestrear con reemplazo para la estadística principal de interés. ¿Por qué es posible hacerlo con subconjuntos pero no con el conjunto de datos original? ¿Es sólo una cuestión de escala?
0 votos
El MC almacena muchos otros datos en un árbol de almacenamiento (unos pocos GB por cada ejecución del MC) y los árboles no están diseñados para acceder al azar, por lo que existe un problema de escala, aunque si éste fuera el único problema, probablemente podría volcarlo en la RAM de un ordenador de sobremesa razonablemente potente. La estadística también depende de una serie de parámetros de los cuales mi estadística es una función, por lo que para hacer un remuestreo completo con reemplazo tendría que romper mi estructura de datos. Si la respuesta simple a mi pregunta es no, entonces me pondré a codificar (y encontraré un ordenador más grande), aunque una solución elegante sería interesante.
0 votos
+1 a Peter -- el planteamiento del problema ni siquiera se acerca al nivel de claridad en el que alguien podría señalar una solución razonable. Si quieres una buena respuesta, plantea una buena pregunta. Puede que tengas razones para proteger la confidencialidad, o intereses comerciales, o un tema de investigación muy candente del que no quieres que te saquen, pero sin una explicación clara de cuál es tu problema, las respuestas serán probablemente irrelevantes para ti.
1 votos
En todo caso, creo que el contexto probablemente diluyó mi pregunta, que era simplemente sobre alternativas al bootstrap que no requieren que el número de muestras por iteración sea igual al número de datos. Creo que los detalles de los códigos MC nucleares no serían esclarecedores.
0 votos
@StasK Tengo que estar de acuerdo con Bowler. Creo que la pregunta era lo suficientemente clara como para responderla. Los detalles sólo ayudarían a satisfacer nuestra curiosidad de por qué es necesario el submuestreo.
0 votos
Había tantas cantidades físicas de las que dependía mi estadística que decidí separar en el análisis en lugar de intentar producir una muestra pura de MC. Para dar una motivación muy simple para esto digamos que mi parámetro era diferente para protones y electrones, así que ejecuto mi MC con muestras de protones y electrones. No hay ninguna razón por la que un electrón no pueda crearse a partir de algo que le ocurra al protón en algún momento de la simulación, así que todavía tengo que filtrarlo en el momento del análisis. Es una simplificación excesiva, pero demuestra el problema en menos de 600 caracteres.