Processing math: 100%

57 votos

Determinación del tamaño de la muestra necesaria para el método bootstrap / Método propuesto

Sé que es un tema bastante candente para el que nadie puede dar una respuesta sencilla. Sin embargo, me pregunto si el siguiente enfoque no podría ser útil.

El método bootstrap sólo es útil si su muestra sigue más o menos (léase exactamente) la misma distribución que la población original. Para estar seguro de que esto es así, es necesario que el tamaño de la muestra sea lo suficientemente grande. ¿Pero qué es lo suficientemente grande?

Si mi premisa es correcta, tienes el mismo problema al utilizar el teorema del límite central para determinar la media de la población. Sólo cuando el tamaño de la muestra es lo suficientemente grande puedes estar seguro de que la población de tus medias muestrales se distribuye normalmente (alrededor de la media de la población). En otras palabras, las muestras deben representar la población (distribución) lo suficientemente bien. Pero, de nuevo, ¿qué es lo suficientemente grande?

En mi caso (procesos administrativos: tiempo necesario para terminar una demanda vs cantidad de demandas) tengo una población con una distribución multimodal (todas las demandas que se terminan en 2011) de la cual estoy 99% seguro que se distribuye aún menos normalmente que la población (todas las demandas que se terminan entre el día actual y un día en el pasado, idealmente este lapso de tiempo es lo más pequeño posible) que quiero investigar.

Mi población de 2011 existe fuera de las unidades suficientes para hacer x muestras de un tamaño de muestra n . Elijo un valor de x Supongamos que 10 ( x=10 ). Ahora utilizo el método de prueba y error para determinar un buen tamaño de muestra. Tomo una n=50 y ver si la media de mi muestra de población se distribuye normalmente utilizando Kolmogorov-Smirnov. Si es así repito los mismos pasos pero con un tamaño de muestra de 40 si no se repite con un tamaño de muestra de 60 (etc.).

Después de un tiempo concluyo que n=45 es el tamaño mínimo absoluto de la muestra para obtener una representación más o menos buena de mi población de 2011. Como sé que mi población de interés (todas las demandas que se terminan entre el día actual y un día en el pasado) tiene menos varianza, puedo utilizar con seguridad un tamaño de muestra de n=45 para arrancar. (Indirectamente, el n=45 determina el tamaño de mi plazo: el tiempo necesario para terminar 45 exigencias).

Esta es, en definitiva, mi idea. Pero como no soy un estadístico sino un ingeniero cuyas clases de estadística tuvieron lugar en los días de antaño, no puedo excluir la posibilidad de que haya generado un montón de basura :-). ¿Qué opinan ustedes? Si mi premisa tiene sentido, ¿tengo que elegir un x más grande que 10 ¿o más pequeño? En función de vuestras respuestas (¿tengo que sentirme avergonzado o no? :-) publicaré más ideas para el debate.

respuesta a la primera respuesta Gracias por responder, su respuesta me ha sido muy útil, especialmente los enlaces de los libros.
Pero me temo que en mi intento de dar información he nublado completamente mi pregunta. Sé que las muestras bootstrap toman la distribución de la muestra de la población. Te sigo completamente pero...

La muestra original de la población debe ser lo suficientemente grande como para estar medianamente seguro de que la distribución de la muestra de la población se corresponde (se iguala) con la distribución "real" de la población.

Se trata simplemente de una idea sobre cómo determinar el tamaño de la muestra original para estar razonablemente seguro de que la distribución de la muestra se corresponde con la distribución de la población.

Supongamos que tenemos una distribución bimodal de la población y que una parte superior es mucho mayor que la otra. Si el tamaño de la muestra es de 5, la probabilidad de que las 5 unidades tengan un valor muy cercano a la parte superior grande es grande (la probabilidad de extraer una unidad al azar es la mayor). En este caso, la distribución de la muestra será unimodal.

Con una muestra de cien personas, la probabilidad de que la distribución de la muestra sea también bimodal es mucho mayor. El problema con el bootstrapping es que sólo se tiene una muestra (y se sigue construyendo sobre esa muestra). Si la distribución de la muestra no se corresponde realmente con la distribución de la población, se tiene un problema. Esto es sólo una idea para hacer que la posibilidad de tener "una mala distribución de la muestra" sea lo más baja posible sin tener que hacer el tamaño de la muestra infinitamente grande.

0 votos

Comprobar el muestreo bayesiano bootstrap que podría hacer frente a un tamaño de muestra pequeño. Véase sumsar.net/blog/2015/04/ para más detalles.

58voto

mat_geek Puntos 1367

Me interesó esta pregunta porque vi la palabra bootstrap y he escrito libros sobre el bootstrap. Además, la gente suele preguntar: "¿Cuántas muestras de bootstrap necesito para obtener una buena aproximación de Monte Carlo al resultado del bootstrap?" Mi respuesta sugerida a esa pregunta es ir aumentando el tamaño hasta conseguir la convergencia. No hay un número que se adapte a todos los problemas.

Pero aparentemente esa no es la pregunta que usted hace. Parece que está preguntando qué es lo que original tamaño de la muestra debe ser para que el bootstrap funcione. En primer lugar, no estoy de acuerdo con su premisa. El bootstrap no paramétrico básico supone que la muestra se toma al azar de una población. Así que para cualquier tamaño de muestra n la distribución para muestras elegidas al azar es la distribución de muestreo asumida en el bootstrapping. El principio del bootstrap dice que la elección de una muestra aleatoria de tamaño n de la población se puede imitar eligiendo una muestra bootstrap de tamaño n de la muestra original. Que el principio del bootstrap se mantenga o no no depende de que una muestra individual "parezca representativa de la población". Lo que sí depende es de lo que se esté estimando y de algunas propiedades de la distribución de la población (por ejemplo, esto funciona para el muestreo de medias con distribuciones de la población que tienen varianzas finitas, pero no cuando tienen varianzas infinitas). No funcionará para estimar los extremos, independientemente de la distribución de la población.

La teoría del bootstrap implica mostrar la consistencia de la estimación. Así que se puede demostrar en teoría que funciona para muestras grandes. Pero también puede funcionar en muestras pequeñas. He visto que funciona para la estimación de la tasa de error de clasificación particularmente bien en tamaños de muestra pequeños como 20 para datos bivariados.

Ahora bien, si el tamaño de la muestra es muy pequeño -digamos 4- el bootstrap puede no funcionar simplemente porque el conjunto de posibles muestras del bootstrap no es lo suficientemente rico. En mi libro o en el de Peter Hall se discute esta cuestión de un tamaño de muestra demasiado pequeño. Pero este número de muestras bootstrap distintas se hace grande muy rápidamente. Así que esto no es un problema incluso para tamaños de muestra tan pequeños como 8. Puedes echar un vistazo a estas referencias:

8 votos

¿Existe alguna prueba estándar para comprobar si (por ejemplo, 4 muestras) no es suficiente? Tengo un conjunto de datos en el que estoy calculando intervalos de confianza bootstrapped para la media, pero algunos individuos tienen muy pocos puntos de datos (< 8 en algunos casos). Mi instinto me dice que debería descartar a los individuos que tienen menos de n puntos de datos, pero entonces ¿cómo defino este límite n? Esperaba encontrar un valor de corte generalmente aceptado (de forma análoga a como 6 ó 7 es el punto de corte arbitrario para el número de muestras por grupo en un análisis de modelo mixto).

0voto

Tann5er Puntos 11

El proceso de remuestreo crea muchas muestras posibles que un estudio podría haber extraído. Las distintas combinaciones de valores en las muestras simuladas proporcionan colectivamente una estimación de la variabilidad entre las muestras aleatorias extraídas de la misma población. El rango de estas muestras potenciales permite que el procedimiento construya intervalos de confianza y realice pruebas de hipótesis.

Es importante destacar que, a medida que aumenta el tamaño de la muestra del bootstrap, éste converge en la distribución de muestreo correcta en la mayoría de las condiciones.

En cuanto a su pregunta sobre: "Se trata simplemente de una idea sobre cómo determinar el tamaño de la muestra original para estar razonablemente seguro de que la distribución de la muestra se corresponde con la distribución de la población."

Esto depende del problema específico que se esté examinando y no depende del tamaño de la muestra bootstrap. El propósito de la muestra bootstrap es simplemente obtener un tamaño de muestra bootstrap lo suficientemente grande, normalmente al menos 1000, para obtener con errores MC bajos, de forma que se puedan obtener estadísticas de distribución sobre la muestra original, por ejemplo, un IC del 95%. Pero esto no puede garantizar que la muestra original tomada sea representativa de la distribución real de la población.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X