4 votos

Muestreados mediana precisión

Estoy trabajando en un problema que tengo para calcular la mediana para un conjunto de datos muy grande (por ejemplo, a 100 metros de valores) que tiene un registro de la distribución normal. Debido a que el conjunto de datos de tamaño, estábamos pensando en tomar una muestra (es decir, un subconjunto aleatorio de 2000 valores), y el cálculo de la mediana. Aunque este es mucho más bonito de un cálculo perspectiva, estoy muy preocupado de que va a ser inexacta.

¿Qué método puedo utilizar para determinar que tan preciso es este muestreados mediana es?

6voto

Kevin Ballard Puntos 88866

Sólo una respuesta empírica, estoy seguro de que alguien más va a ser capaz de darle una forma más formal.

set.seed(12345)

# Generate a big dataset, log-normally distributed
bigdata <- rlnorm(10e6, meanlog=log(25))

# Now generate 500 different samples with 
# 10, 100, 1000, or 10000 elements in it
# and compare the medians

nelem <- c(10, 100, 1000, 10000)

m <- matrix(NA, nrow=1000, ncol=length(nelem))
par(mfrow=c(2,2))

for (el in 1:length(nelem))
  {
  for (i in 1:500)
    {
    data <- sample(bigdata, nelem[el], replace=F)
    m[i, el] <- median(data)
    }

  # Plot the histogram
  hist(m, 100, col="black", freq=F, las=1, 
       main=paste(nelem[el],"element sampled"), xlab="Median")
  # Plot the "real" median
  abline(v=median(bigdata), col="red", lwd=2)
  }

Esto le da la distribución de las medias de 500 ensayos de muestreo:

median histograms

Como usted puede ver, usted consigue bastante buenos resultados ya por muestreo de 1000 elementos de los 10M a partir de los datos originales.

3voto

pgras Puntos 7202

Puede repetir el proceso de muestreo muchas veces y calcular el intervalo de confianza. Esto le dará una estimación que, por ejemplo, el 95% de su muestra de los separadores de otoño.

1voto

AdamSane Puntos 1825

Además empírica de las respuestas, hay una gran parte de la muestra:

Si $f_0$ es la densidad (es decir, asumiendo una variable continua) en la mediana de la varianza de la mediana es asintóticamente $\frac{1}{4nf_0^2}$

por ejemplo, ver http://en.wikipedia.org/wiki/Median#Variance

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X