Suponga que tiene una muestra de tamaño $n = 1000$ de una distribución normal desconocida. Queremos estimar el percentil 65 de la distribución desconocida. Yo sólo casualmente tengo uno en mi ordenador ahora, en un vector $\mathbf{x}.$
Como usted dice, hay dos enfoques posibles. Uno es tomar el percentil 65 de la muestra. El resultado es 105,45, que obtengo utilizando el software estadístico R.
quantile(x, .65)
## 65%
## 105.4531
El segundo enfoque consiste en estimar la media $\mu$ y la desviación estándar $\sigma$ de la población normal, utilizando la media y la desviación estándar de la muestra desviación estándar de la muestra. Obtengo $\hat \mu = \bar X = 100.40$ y $\hat \sigma = S = 14.74.$
mean(x); sd(x)
## 100.4008
## 14.74482
Pero el percentil 65 de $\mathsf{Norm}(100.50, 14.745)$ es de 105,98.
qnorm(.65, 100.40, 14.475)
## 105.9775
La pregunta que se plantea ahora es: ¿cuál se acerca más a la respuesta correcta? La primera estimación (no paramétrica) 105,45 o la segunda estimación (paramétrica) 105,98. En una situación de la vida real nunca lo sabríamos con seguridad, pero podríamos esperar la estimación paramétrica basada en las MLEs $\hat \mu$ y $\hat \sigma$ sería mejor.
Pero en este caso, nosotros puede lo sé con seguridad porque he simulado mi muestra de 1000 de $\mathsf{Norm}(100, 15),$ que tiene un percentil 65 de 105,78. Así que la estimación paramétrica está un poco más cerca.
qnorm(.65, 100, 15)
## 105.7798
Los datos fueron simulados por el siguiente código R. Como establecí una semilla, usted puede replicar el experimento con precisión en R.
set.seed(2017); x = round(rnorm(1000, 100, 15), 3)
Adenda por pregunta en el comentario: Aquí hay una breve demostración de quantile
en el contexto actual.
quantile(x, .65)
## 65%
## 105.4531
sx = sort(x); sx[650]; sx[651]
## 105.423
## 105.509
Nota: La superioridad del estimador paramétrico en el ejemplo anterior no es un resultado accidental de una sola vez. En una simulación de 100.000 muestras de tamaño $n=200,$ la media de los estimadores paramétricos fue de 105,77 con un error cuadrático medio de 1,22; la media de los estimadores no paramétricos fue de 105,74 con un error cuadrático medio de 1,85.