EDIT: Tragedia! Mi primera hipótesis es incorrecta! (O en caso de duda, al menos -- ¿usted confía en lo que el vendedor le está diciendo? Aún así, sombrero de punta a Morten, así.) Que supongo que es otra buena introducción a la estadística, pero El Parcial de la Hoja de Enfoque ahora es agregado a continuación (ya que la gente parecía como si Toda la Hoja, y tal vez a alguien le resulta útil).
Primero de todo, gran problema. Pero me gustaría hacer un poco más complicado.
Debido a que, antes de hacerlo, permítanme hacer un poco más simple, y lo digo - el método que estás usando ahora mismo es perfectamente razonable. Es barato, es fácil que tenga sentido. Así que si usted se pega con él, usted no debe sentirse mal. Sólo asegúrese de que usted elija los lotes al azar. Y, si sólo se puede pesar de todo, de forma fiable (sombrero de punta a whuber y user777), entonces usted debe hacer eso.
La razón por la que quiero hacer es un poco más complicado, aunque es el que ya tiene ... que simplemente no nos dijo sobre el conjunto de la complicación, que es que ... contando lleva tiempo, y el tiempo es dinero. Pero ¿ cuánto? Tal vez lo que realmente es más barato a contar todo!
Así que lo que realmente está haciendo es equilibrar el tiempo que se tarda en contar, con la cantidad de dinero que está ahorrando. (SI, por supuesto, sólo jugar a este juego de una vez. La PRÓXIMA vez que esto ocurra con el vendedor, que podrían haber cogido, y trató de un truco nuevo. En la teoría del juego, esta es la diferencia entre un Solo Tiro Juegos, y Reiterado de los Juegos. Pero por ahora, vamos a suponer que el vendedor siempre va a hacer lo mismo).
Una cosa más antes de llegar a la estimación, aunque. (Y, lo siento haber escrito tanto y todavía no ha llegado a la respuesta, pero entonces, que es una buena respuesta a Lo que sería un estadístico? Iban a gastar una enorme cantidad de tiempo asegurándose de que entiende cada pequeña parte del problema antes de que fueran cómodos diciendo nada al respecto.) Y que cosa es un conocimiento basado en lo siguiente:
(EDIT: SI en REALIDAD SON TRAMPAS ...) el vendedor no ahorrar dinero mediante la eliminación de las etiquetas -- ahorrar dinero al no de la impresión de las hojas. No pueden vender sus etiquetas a alguien (supongo). Y tal vez, no sé y no sé si usted lo hace, que no puede imprimir la mitad de una hoja de tus cosas, y la mitad de una hoja de alguien más. En otras palabras, incluso antes de que hayas comenzó a contar, se puede asumir que el número total de etiquetas es 9000, 9100, ... 9900, or 10,000
. Eso es lo que yo te acercas a ella, por ahora.
Todo El Método De Hoja
Cuando un problema es un poco complicado como este (discreto y limitado), muchos de los estadísticos se simulan lo que podría suceder. Esto es lo que he simulado:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
Esto le da a usted, suponiendo que se está utilizando toda la hojas, y sus suposiciones son correctas, una posible distribución de las etiquetas (en el lenguaje de programación R).
Entonces hice esto:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
Este se encuentra, el uso de un "bootstrap" método de los intervalos de confianza usando 4, 5, ... de 20 muestras. En otras palabras, En promedio, si usted fuera a utilizar N muestras, cómo de grande sería su intervalo de confianza? Puedo usar esto para encontrar un intervalo que es lo suficientemente pequeño para decidir sobre el número de hojas, y esa es mi respuesta.
Por "suficientemente pequeño", me refiero a mis 95% intervalo de confianza sólo tiene un número entero dentro de él-por ejemplo, si mi intervalo de confianza fue de [93.1, 94.7], entonces yo elegiría 94 como el número correcto de las hojas, ya que sabemos que es un número entero.
OTRA dificultad a pesar de que -- su confianza depende de la verdad. Si usted tiene 90 hojas, y cada pila tiene 90 etiquetas, entonces converge muy rápido. Mismo con 100 hojas. Así que lo miré a 95 hojas, donde hay mayor incertidumbre, y se encontró que para tener un 95% de certeza, que necesita acerca de 15 muestras, en promedio. Así que vamos a decir en general, que desea tomar 15 muestras, porque nunca se sabe lo que realmente hay.
DESPUÉS de que sabe cómo muchas de las muestras que usted necesita, usted sabe que sus ahorros esperados son:
$100N_{falta} - 15c$
donde $c$ es el costo de contar una pila. Si se supone que hay una igualdad de oportunidad de cada número entre 0 y 10 están desaparecidos, luego de su ahorro esperado $500 - 15*$c$. Pero, y aquí está el punto de hacer de la ecuación -- también se podría optimizar, para el comercio fuera de su confianza, para el número de muestras que usted necesita. Si estás de acuerdo con la confianza de que 5 muestras le da a usted, entonces usted también puede calcular cuánto vas a hacer allí. (Y puedes jugar con este código, a la figura que fuera.)
Pero también debe cargar el hombre para hacer que usted hace todo este trabajo!
(EDIT: AÑADIDO!) El Parcial De La Hoja De Enfoque
Bien, así que vamos a asumir lo que el fabricante dice es cierto, y no es intencional -- un par de etiquetas se acaba de perder en cada hoja. Todavía quieres saber, Acerca de cómo muchas de las etiquetas, en general?
Este problema es diferente porque ya no tienes un bonito y limpio decisión que usted puede hacer -- que era una ventaja para el Conjunto de la Hoja de asunción. Antes, sólo había 11 posibles respuestas ... ahora, hay 1100, y obtener un 95% de intervalo de confianza en exactamente cuántas etiquetas hay es, probablemente, va a tomar mucho más muestras de lo que quieres. Por lo tanto, vamos a ver si podemos pensar acerca de esto de manera diferente.
Porque esto es realmente acerca de tomar una decisión, todavía nos falta un par de parámetros - ¿cuánto dinero estás dispuesto a perder, en una sola oferta, y cuánto dinero cuesta a cargo de la pila. Pero me deja configurar lo que podría hacer, con esos números.
La simulación de nuevo (a pesar de los apoyos a user777 si se puede hacer sin!), es informativo para mirar el tamaño de los intervalos cuando se utilizan diferentes cantidades de muestras. Que se puede hacer de la siguiente manera:
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
Que se supone (esta vez) que cada pila tiene de manera uniforme un número aleatorio de las etiquetas de entre 90 y 100, y te ofrece:
Por supuesto, si las cosas eran realmente como se han simulado, la verdadera media sería de alrededor de 95 muestras por pila, la cual es inferior a lo que la verdad parece ser -- este es un argumento en el hecho de que el enfoque Bayesiano. Pero, le da un sentido útil de cuánto más cierto que se está volviendo acerca de su respuesta, mientras continúan ejemplo -- y usted puede ahora explícitamente el comercio del costo de muestreo con cualquier trato de venir sobre los precios.
Que yo sepa por ahora, estamos todos muy curioso oír hablar.