Método 1: El cálculo de los percentiles, por ejemplo, el percentil 99 de los datos, es sencillo y se basa en la ordenación de los valores de los datos.
Método 2: Una forma más complicada de calcular los percentiles será primero ajustar una distribución a los datos (por ejemplo, si sabemos que los datos son normales, ajustamos una distribución normal, o hacemos una estimación de densidad Kernel no paramétrica), y luego calculamos la cdf inversa para obtener el percentil 99 de los datos.
Me pregunto si este último método tiene alguna ventaja. Mis dos suposiciones
- Estoy pensando que inferir los percentiles a partir de la distribución puede ser más robusto ya que el resultado del método 1 es más sensible a los cambios en los datos?
- ¿Podemos tratar el resultado del método dos también como una probabilidad de que se produzca el valor, mientras que con el método 1 no podemos?