Como otros usuarios han señalado que hay un número de maneras para calcular los cuantiles de una muestra. Creo que E. Langford del artículo Cuartiles en la escuela Primaria Estadísticas publicadas en el Diario de las Estadísticas de Educación da una buena visión general de los diferentes métodos, que sigue de cerca los resultados de Hyndman & Fan del artículo de Ejemplo de Cuantiles en Paquetes Estadísticos publicados en El American Estadístico. El artículo de la wikipedia en cuantiles es también bastante bueno. Ambos artículos son relativamente sencilla lee incluso para los estudiantes de pregrado, así que no se sienten intimidados por ellos.
Vamos ahora a tus preguntas:
Sí, usted puede elegir el método que usted describe. Como ya mencionado, la mediana es un fin de estadística que puede definirse como la igualdad de rango hacia arriba y hacia abajo de rango. En su 345-elemento de la muestra que es claramente el 173º punto de la ordenada de la muestra.
Creo que estás malinterpretando lo que la mediana es y eso es por qué usted está haciendo esto. Ver la definición que dio en el punto uno. En el caso de un par de ejemplo el valor interpolado entre los dos a mediados de los puntos es la consecuencia natural.
Esto nos lleva a lo que he planteado al principio de este post. Hay diferentes maneras en que puede definir la $q$-ésimo cuantil. Yo recomendaría a encontrar al utilizado por el software de elección, documento esta opción dentro de su trabajo y, a continuación, sólo tiene que utilizar ese. Para muestras grandes, la diferencia será probablemente insignificante; si un tercero está preocupado acerca de esta elección va a ser clara, donde cualquier cambio debe ser hecho.
Yo personalmente no se preocupan por el cuantil de la función que yo uso. Yo uso el defecto en el paquete que estoy utilizando en el momento y me dejé llevar. Si yo tenía que elegir, probablemente voy a ir con la Def. 5 de la Hyndman Y Ventilador de papel; el uno que dicen que es popular entre los hidrólogos. Parece que tiene todos los (razonable) de las propiedades de un cuantil de la estimación debe tener (como los que fueron recogidos por el H. Y F.) y es fácil de calcular/visualizar: uno tiene la ECDF, toma el inverso de (esencialmente de dar la vuelta al sistema axial), y se interpola a través de los puntos medios. Permítanme enfatizar esto es NO el defecto en R (el valor por defecto en MATLAB); type=5
en la quantile
función, type=7
es R predeterminado. (H. & F. defienden el uso de la type=8
)
Y un pequeño R-simulación sólo para mostrar la diferencia insignificante en el caso de muestra grande. Voy a utilizar una distribución bimodal con un tamaño de muestra casi igual a la que usted tiene:
# Set your seed for reproducibility
set.seed(1234)
# Make 1000 samples of 350 elements each;
# each sample is a mixture of two Gaussians
X = replicate( c(rnorm(175, mean=-2), rnorm(175, mean=2)), n=1000)
# Get the R default (method=7) quantiles for q=10
q10tp7 =(apply(X, 2, quantile, type=7 , probs= .1) )
# Get the MATLAB default (method=5) quantiles for q=10
q10tp5 =(apply(X, 2, quantile, type=5 , probs= .1) )
# Check their means crudely:
mean(q10tp7) # [1] -2.827594
mean(q10tp5) # [1] -2.835528
# How about a quick Kolmogorov-Smirnov or a Wilcoxon rank sum test?
ks.test(q10tp5, q10tp7) # p-value = 0.4658
wilcox.test(q10tp5, q10tp7) # p-value = 0.09401
Como se puede ver estos dos métodos en el contexto de un finito y algo grande de la muestra no son demasiado diferentes. Sólo documento que el método que use y se mueve junto con su análisis.