Este es el tipo de problema tratado en población finita teoría del muestreo, como se presenta en el libro http://www.amazon.com/Finite-Population-Sampling-Inference-Prediction/dp/0471293415/ref=sr_1_1?s=books&ie=UTF8&qid=1401276486&sr=1-1&keywords=finite+population+sampling+theory
(y muchos otros).
Primero de todo, usted quiere una manera práctica de hacer el muestreo! Así que vamos a necesitar para saber cómo su físico se almacenan los archivos! Usted también debe pensar en si están almacenados en completo orden aleatorio, o en algún otro orden determinado (en orden alfabético? cronológico? qué???). Un muestreo aleatorio simple con frecuencia será impráctico --- podría ser práctico si usted tiene alguna lista de todos los archivos de tu colección, si la lista está en un equipo o en papel (y si es práctico para acceder a los archivos de la orden). Si la respuesta a esa pregunta es NO, por lo que el muestreo aleatorio simple es poco práctico, se puede utilizar algún tipo de clúster o muestreo estratificado. Usted puede encontrar explicaciones de este y de términos relacionados aquí: https://en.wikipedia.org/wiki/Statistical_sampling
Sin saber más acerca de la situación práctica, sólo algunos breves consejos: muestreo podría estar en el nivel de
--- shelfes
--- cajones
o algunas otras unidades en las que el almacenamiento físico se organiza. Usted debe pensar acerca de cuestiones tales como: Si el almacenamiento es decir, el orden cronológico, podría haber alguna tendencia en el documento de tamaño con el tiempo? O alguna variación cíclica, es decir , en algunas partes del año, de los documentos de un determinado tipo se producen, que normalmente varía en longitud?
Podemos ayudar más si nos dicen más acerca de la situación!
(Entonces, según el plan de muestreo elegido, habrá algunas fórmulas específicas/métodos a utilizar para la construcción de estimaciones e intervalos de confianza)