Como en el tema. Siempre he pensado que tenemos una definición clara y bien establecida de un cuantil sobre un vector de números. Por ejemplo, la mediana es una observación que divide el conjunto de datos de tal manera que el 50% de los datos son >= a ella y el 50% son <= a ella. En caso de un número par de números, tomamos la media de los dos valores medios consecutivos. Y eso está claro. Lo mismo puede decirse de otros cuantiles, según sea necesario, si sólo cambiamos las fracciones.
Luego leí que los cuantiles -cuartiles, percentiles, deciles y todos los demás "-iles" se deducen de la función de distribución acumulativa, pero -al fin y al cabo- conduce a los mismos resultados.
Luego empecé a aprender y utilicé dos programas informáticos para practicar, SAS, R y SQL. Cuando comparé los cuartiles calculados por las tres herramientas, ¡obtuve resultados diferentes para la mediana! Leí la documentación y descubrí que hay muchas formas de calcular los cuantiles. Cuando establecí la opción adecuada en R o SAS, las discrepancias desaparecieron, lo cual está bien, pero mis preocupaciones no desaparecieron.
¿No es la mediana sólo la mediana? Si tenemos la definición clara que se enseña en la escuela y en los libros de texto, ¿por qué tenemos que preocuparnos por el tipo correcto de cuantiles calculados?
¿Y cuál es mejor? ¿Hay algo detrás de la elección? Supongo que los estadísticos que hacen SAS y R son personas bien formadas en estadística, por lo que saben lo que hacen. Y sin embargo - eligieron diferentes algoritmos, por lo que incluso los profesionales no son consistentes en este asunto.
He oído algo de que esto devuelve un estimador del cuantil, pero si tengo todo mi conjunto de datos, la población en sí, ¡no tengo que estimar nada! ¿Cuál debo elegir entonces?
Por favor, acláreme por qué la "mediana clásica" calculada a mano apenas coincide con los resultados del software estadístico profesional. Por supuesto, las diferencias son menores, como 0,5, pero existen.
Si mi empleador y mis clientes me preguntan por qué obtengo diferentes medianas en función del software, en lugar de utilizar simplemente el método enseñado en la escuela, tendré que justificarlo de alguna manera...