¿Cómo puede cambiar la proporción de muestreo para estimar cuantiles con tamaño de la población?

Question

¿Cómo puede cambiar la proporción de muestreo para estimar cuantiles con tamaño de la población?

Preguntado el 24 de Agosto, 2013: Cuando se hizo la pregunta
351 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Me quiero cortar mis datos de tamaño N en k igualdad de tamaño de los contenedores. Pero estoy feliz con aproximadamente el mismo tamaño de los recipientes, con algunos $\varepsilon$ de error. Como precisa cuantiles de los datos son computacionalmente costosos (clasificación de tiempo crece a la tasa de $O(N \log N)$), estoy feliz de la estimación de los cuantiles. Tomando los cuantiles de algunos submuestra aleatoria de tamaño n es un claro camino a seguir. Pero ¿cuál es la recomendación / teoría / fórmula para qué tamaño de muestra a tomar? ¿A qué tasa debe de muestreo o $\frac{n}{N}$ relación de muestreo crecer por la misma precisión (proporcional desviaciones de bin acciones)?

Hay algoritmos de estimación de cuantiles de la población a partir de muestras pequeñas (como Harrell-Davis) o aproximado de cuantiles de flujos de datos. No estoy seguro de si está relacionado con el problema en cuestión, es decir, tener acceso a toda la población, sólo en busca de una forma sensata para facilitar el cálculo de los cuantiles en el costo de algunos de precisión.

Página 3 de esta encuesta dice que con el muestreo aleatorio simple,

para la estimación de los cuantiles con precisión $\varepsilon n$, con una probabilidad de al menos $1 − \delta$, una muestra de tamaño $\Theta ( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} )$, donde 0 < d < 1.

Esto sugiere que la muestra alrededor de 20,000 por $\varepsilon = 0.1$$\delta = 0.1$? ¿Qué es $\Theta$?

19 vingtiles de corte de los datos en contenedores de 20, cualquiera de los que se debían tener una mayor probabilidad de uno solo. A pesar de corrección en el 3er percentil de la población, todos los vingtiles será demasiado alto. Dicho esto, una visión sesgada de la serie de cuantiles (6%, 11%, etc. en lugar del 5%, 10%, etc.) todavía me deja agarrar una distribución bastante bien.

Preguntado el 24 de Agosto, 2013 por kerunaru

Answer 1

1 Respuestas

Answer 2

3voto

kerunaru Puntos 1

Para el orden del tamaño de la muestra, no hay referencia directa aquí (con la notación Theta):

para la estimación de los cuantiles con precisión $\varepsilon n$, con una probabilidad de al menos $1 − \delta$, una muestra de tamaño $\Theta ( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} )$, donde 0 < d < 1.

Pero creo que esto podría ser un problema más fácil de lo que parecía, al menos con una aproximación asintótica. Para cualquier verdadero/población/muestra/N p-ésimo cuantil $q = F^{-1}(p)$ la limitación de la distribución es $$ \sqrt{n}(\hat{q}-q) = \sqrt{n}\Delta q \sim N \left(0,\frac{p(1-p)}{f(q)^2} \right) $$

pero si nos interesa (por ejemplo) de 1 punto porcentual desviaciones ($\varepsilon = 0.01$) en la forma $F(q + \Delta q) \in (p-0.01,p+0.01)$, podemos aproximar la masa en el $\Delta q$ barrio con $f(q) \Delta q$ e intentar obligado. Diciendo que $|f(q) \Delta q | < 0.01$ con un 99% de probabilidad ($1-\delta$ anterior), a continuación, convierte el problema de que la distribución normal tiene su 0.995 cuantil al 0.01, debido a que su varianza, entonces, es el delimitador $\frac{p(1-p)}{n}$. Problemas para el peor de los casos de $p=0.5$, esto le da a la crítica del tamaño de la muestra a ser $n = 16,556$ mientras las aproximaciones espera.

Respondido el 25 de Agosto, 2013 por kerunaru (1 Puntos )

¿Cómo puede cambiar la proporción de muestreo para estimar cuantiles con tamaño de la población?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo puede cambiar la proporción de muestreo para estimar cuantiles con tamaño de la población?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: