6 votos

Cómo calculo el tamaño medio de los objetos

Tenemos un gran número de (física) archivos legales, y se desea obtener una estimación del número promedio de páginas por archivo. No sé cuál es la distribución de las páginas de esperar, el número de páginas que van desde 1 a un gran número finito.

Mi idea es tomar un número de muestras, se debe contar el número de páginas de los archivos y, a continuación, utilizar el promedio de todo eso, pero ¿cuántas muestras debo tomar para obtener una leve respuesta precisa (no más de 20% de descuento)?

Qué importa que la distribución supongo? Supongo que no, pero teniendo en cuenta que los archivos de crecer hasta que son vistos como hecho, a tasas desiguales (algunas de las letras contienen más páginas de las que otros), lo más probable es que la distribución para describir esto?

4voto

kjetil b halvorsen Puntos 7012

Este es el tipo de problema tratado en población finita teoría del muestreo, como se presenta en el libro http://www.amazon.com/Finite-Population-Sampling-Inference-Prediction/dp/0471293415/ref=sr_1_1?s=books&ie=UTF8&qid=1401276486&sr=1-1&keywords=finite+population+sampling+theory (y muchos otros).

Primero de todo, usted quiere una manera práctica de hacer el muestreo! Así que vamos a necesitar para saber cómo su físico se almacenan los archivos! Usted también debe pensar en si están almacenados en completo orden aleatorio, o en algún otro orden determinado (en orden alfabético? cronológico? qué???). Un muestreo aleatorio simple con frecuencia será impráctico --- podría ser práctico si usted tiene alguna lista de todos los archivos de tu colección, si la lista está en un equipo o en papel (y si es práctico para acceder a los archivos de la orden). Si la respuesta a esa pregunta es NO, por lo que el muestreo aleatorio simple es poco práctico, se puede utilizar algún tipo de clúster o muestreo estratificado. Usted puede encontrar explicaciones de este y de términos relacionados aquí: https://en.wikipedia.org/wiki/Statistical_sampling

Sin saber más acerca de la situación práctica, sólo algunos breves consejos: muestreo podría estar en el nivel de --- shelfes --- cajones o algunas otras unidades en las que el almacenamiento físico se organiza. Usted debe pensar acerca de cuestiones tales como: Si el almacenamiento es decir, el orden cronológico, podría haber alguna tendencia en el documento de tamaño con el tiempo? O alguna variación cíclica, es decir , en algunas partes del año, de los documentos de un determinado tipo se producen, que normalmente varía en longitud?

Podemos ayudar más si nos dicen más acerca de la situación!

(Entonces, según el plan de muestreo elegido, habrá algunas fórmulas específicas/métodos a utilizar para la construcción de estimaciones e intervalos de confianza)

0voto

AdamSane Puntos 1825

Un intervalo para la media de la voluntad

(i) ser probabilístico, es decir, con un muestreo aleatorio, se podría calcular una media que no es más que 20% de descuento en el 99% de las veces (o algún otro porcentaje) -- pero no al 100%, a menos que su muestra es de su población.

(ii) depende de la desviación estándar del número de páginas; ya que esto va a ser desconocido, necesitará cierta información acerca de que (tal vez un límite superior, tal vez una estimación a partir de una muestra piloto) antes de calcular una estimación del tamaño de muestra requerido.

0voto

Param Puntos 26

Me gustaría explorar gráficamente la población por construncting algunas muestras al azar de los documentos del repositorio, luego de la parcela histogramas de el número de páginas de cada documento en la muestra.

Si las distribuciones no, similar a una distribución normal, la media por sí solo no es tan informativo (como se dijo en los comentarios) y tal vez usted debe necesitar para estimar los momentos de orden superior como la varianza, curtosis y asimetría.

Otra buena herramienta para tener una idea de la distribución de las boxplots.

Si los datos no se ajustan a cualquier teórico de la distribución, usted todavía puede estimar estos momentos en algún intervalo de confianza por bootstrap.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X