Sé que es un tema bastante candente para el que nadie puede dar una respuesta sencilla. Sin embargo, me pregunto si el siguiente enfoque no podría ser útil.
El método bootstrap sólo es útil si su muestra sigue más o menos (léase exactamente) la misma distribución que la población original. Para estar seguro de que esto es así, es necesario que el tamaño de la muestra sea lo suficientemente grande. ¿Pero qué es lo suficientemente grande?
Si mi premisa es correcta, tienes el mismo problema al utilizar el teorema del límite central para determinar la media de la población. Sólo cuando el tamaño de la muestra es lo suficientemente grande puedes estar seguro de que la población de tus medias muestrales se distribuye normalmente (alrededor de la media de la población). En otras palabras, las muestras deben representar la población (distribución) lo suficientemente bien. Pero, de nuevo, ¿qué es lo suficientemente grande?
En mi caso (procesos administrativos: tiempo necesario para terminar una demanda vs cantidad de demandas) tengo una población con una distribución multimodal (todas las demandas que se terminan en 2011) de la cual estoy 99% seguro que se distribuye aún menos normalmente que la población (todas las demandas que se terminan entre el día actual y un día en el pasado, idealmente este lapso de tiempo es lo más pequeño posible) que quiero investigar.
Mi población de 2011 existe fuera de las unidades suficientes para hacer x muestras de un tamaño de muestra n . Elijo un valor de x Supongamos que 10 ( x=10 ). Ahora utilizo el método de prueba y error para determinar un buen tamaño de muestra. Tomo una n=50 y ver si la media de mi muestra de población se distribuye normalmente utilizando Kolmogorov-Smirnov. Si es así repito los mismos pasos pero con un tamaño de muestra de 40 si no se repite con un tamaño de muestra de 60 (etc.).
Después de un tiempo concluyo que n=45 es el tamaño mínimo absoluto de la muestra para obtener una representación más o menos buena de mi población de 2011. Como sé que mi población de interés (todas las demandas que se terminan entre el día actual y un día en el pasado) tiene menos varianza, puedo utilizar con seguridad un tamaño de muestra de n=45 para arrancar. (Indirectamente, el n=45 determina el tamaño de mi plazo: el tiempo necesario para terminar 45 exigencias).
Esta es, en definitiva, mi idea. Pero como no soy un estadístico sino un ingeniero cuyas clases de estadística tuvieron lugar en los días de antaño, no puedo excluir la posibilidad de que haya generado un montón de basura :-). ¿Qué opinan ustedes? Si mi premisa tiene sentido, ¿tengo que elegir un x más grande que 10 ¿o más pequeño? En función de vuestras respuestas (¿tengo que sentirme avergonzado o no? :-) publicaré más ideas para el debate.
respuesta a la primera respuesta Gracias por responder, su respuesta me ha sido muy útil, especialmente los enlaces de los libros.
Pero me temo que en mi intento de dar información he nublado completamente mi pregunta. Sé que las muestras bootstrap toman la distribución de la muestra de la población. Te sigo completamente pero...
La muestra original de la población debe ser lo suficientemente grande como para estar medianamente seguro de que la distribución de la muestra de la población se corresponde (se iguala) con la distribución "real" de la población.
Se trata simplemente de una idea sobre cómo determinar el tamaño de la muestra original para estar razonablemente seguro de que la distribución de la muestra se corresponde con la distribución de la población.
Supongamos que tenemos una distribución bimodal de la población y que una parte superior es mucho mayor que la otra. Si el tamaño de la muestra es de 5, la probabilidad de que las 5 unidades tengan un valor muy cercano a la parte superior grande es grande (la probabilidad de extraer una unidad al azar es la mayor). En este caso, la distribución de la muestra será unimodal.
Con una muestra de cien personas, la probabilidad de que la distribución de la muestra sea también bimodal es mucho mayor. El problema con el bootstrapping es que sólo se tiene una muestra (y se sigue construyendo sobre esa muestra). Si la distribución de la muestra no se corresponde realmente con la distribución de la población, se tiene un problema. Esto es sólo una idea para hacer que la posibilidad de tener "una mala distribución de la muestra" sea lo más baja posible sin tener que hacer el tamaño de la muestra infinitamente grande.
0 votos
Comprobar el muestreo bayesiano bootstrap que podría hacer frente a un tamaño de muestra pequeño. Véase sumsar.net/blog/2015/04/ para más detalles.