9 votos

Submuestra bootstrapping

He estado trabajando en la incertidumbre asociada a una cantidad calculada a partir de un proyecto de Monte Carlo. Normalmente utilizaría el método bootstrap por remuestreo con reemplazo, por un par de razones técnicas eso no es particularmente fácil aquí. Me sugirieron que simplemente dividiera mi conjunto de datos de MC y realizara el experimento con estos subconjuntos y encontrara la incertidumbre de esa manera. En el pasado he encontrado referencias al bootstrap con sólo un subconjunto del conjunto de datos original.

¿Puede alguien indicarme un tutorial sobre esto o explicarme brevemente en qué se diferencia del bootstrapping con reemplazo y de la simple fijación del número de muestras en una fracción del tamaño total? Estaría particularmente interesado en un método que significara que $n$ podría ser diferente para cada submuestra, esto haría mi análisis mucho más sencillo.

1 votos

Creo que tenemos que escuchar más sobre por qué no se puede simplemente volver a muestrear con reemplazo para la estadística principal de interés. ¿Por qué es posible hacerlo con subconjuntos pero no con el conjunto de datos original? ¿Es sólo una cuestión de escala?

0 votos

El MC almacena muchos otros datos en un árbol de almacenamiento (unos pocos GB por cada ejecución del MC) y los árboles no están diseñados para acceder al azar, por lo que existe un problema de escala, aunque si éste fuera el único problema, probablemente podría volcarlo en la RAM de un ordenador de sobremesa razonablemente potente. La estadística también depende de una serie de parámetros de los cuales mi estadística es una función, por lo que para hacer un remuestreo completo con reemplazo tendría que romper mi estructura de datos. Si la respuesta simple a mi pregunta es no, entonces me pondré a codificar (y encontraré un ordenador más grande), aunque una solución elegante sería interesante.

0 votos

+1 a Peter -- el planteamiento del problema ni siquiera se acerca al nivel de claridad en el que alguien podría señalar una solución razonable. Si quieres una buena respuesta, plantea una buena pregunta. Puede que tengas razones para proteger la confidencialidad, o intereses comerciales, o un tema de investigación muy candente del que no quieres que te saquen, pero sin una explicación clara de cuál es tu problema, las respuestas serán probablemente irrelevantes para ti.

17voto

mat_geek Puntos 1367

Hay dos métodos relacionados con su pregunta. Uno es el bootstrap de m de n y el otro es el submuestreo aleatorio. En su propuesta original, Efron eligió que el tamaño de la muestra del bootstrap fuera el mismo que el tamaño de la muestra original. No había ningún requisito específico para hacerlo, pero la idea era imitar el muestreo aleatorio de la población lo más cerca posible. Sin embargo, hay situaciones en las que este bootstrap ordinario es inconsistente. Bickel y Ren, entre otros, demostraron que tomar un tamaño de muestra m más pequeño puede conducir a resultados consistentes. Esto funciona asintóticamente con m y n que tienden al infinito, pero a un ritmo tal que m/n llega a 0. El submuestreo aleatorio fue introducido por Hartigan y McCarthy a finales de los años 60, aproximadamente una década antes del bootstrap. Utiliza un procedimiento de muestreo aleatorio de subconjuntos de la muestra original. Es posible que pueda adoptar cualquiera de estos enfoques con sus datos.

Para obtener información sobre el m de n bootstrap puede consultar cualquiera de los siguientes libros de los que soy autor/coautor:

Introducción a los métodos Bootstrap con aplicaciones a R

Métodos Bootstrap: Una guía para profesionales e investigadores

Este libro de Politis, Romano y Wolf aborda el submuestreo aleatorio con gran detalle:

Submuestreo

1 votos

Gracias con un poco de codificación adicional creo que m de n es lo que estoy buscando, nunca se dio cuenta de que había tanto para el bootstrap.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X