Me quiero cortar mis datos de tamaño N en k igualdad de tamaño de los contenedores. Pero estoy feliz con aproximadamente el mismo tamaño de los recipientes, con algunos $\varepsilon$ de error. Como precisa cuantiles de los datos son computacionalmente costosos (clasificación de tiempo crece a la tasa de $O(N \log N)$), estoy feliz de la estimación de los cuantiles. Tomando los cuantiles de algunos submuestra aleatoria de tamaño n es un claro camino a seguir. Pero ¿cuál es la recomendación / teoría / fórmula para qué tamaño de muestra a tomar? ¿A qué tasa debe de muestreo o $\frac{n}{N}$ relación de muestreo crecer por la misma precisión (proporcional desviaciones de bin acciones)?
Hay algoritmos de estimación de cuantiles de la población a partir de muestras pequeñas (como Harrell-Davis) o aproximado de cuantiles de flujos de datos. No estoy seguro de si está relacionado con el problema en cuestión, es decir, tener acceso a toda la población, sólo en busca de una forma sensata para facilitar el cálculo de los cuantiles en el costo de algunos de precisión.
Página 3 de esta encuesta dice que con el muestreo aleatorio simple,
para la estimación de los cuantiles con precisión $\varepsilon n$, con una probabilidad de al menos $1 − \delta$, una muestra de tamaño $\Theta ( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} )$, donde 0 < d < 1.
Esto sugiere que la muestra alrededor de 20,000 por $\varepsilon = 0.1$$\delta = 0.1$? ¿Qué es $\Theta$?
19 vingtiles de corte de los datos en contenedores de 20, cualquiera de los que se debían tener una mayor probabilidad de uno solo. A pesar de corrección en el 3er percentil de la población, todos los vingtiles será demasiado alto. Dicho esto, una visión sesgada de la serie de cuantiles (6%, 11%, etc. en lugar del 5%, 10%, etc.) todavía me deja agarrar una distribución bastante bien.