Pregunté por qué había una diferencia entre la media del máximo de 100 extracciones de una distribución normal aleatoria y el percentil 98 de la distribución normal. La respuesta que recibí de Rob Hyndman fue en gran parte aceptable, pero demasiado densa desde el punto de vista técnico para aceptarla sin revisarla. Me quedé con la duda de si era posible dar una respuesta que explicara en un lenguaje sencillo e intuitivo por qué estos dos valores no son iguales.
En última instancia, mi respuesta puede ser insatisfactoriamente circular; pero conceptualmente, la razón por la que max(rnorm(100)) tiende a ser mayor que qnorm(.98) es, en resumen, porque en promedio la más alta de 100 puntuaciones distribuidas normalmente al azar superará en ocasiones su valor esperado. Sin embargo, esta distorsión no es simétrica, ya que cuando se extraen puntuaciones bajas es poco probable que acaben siendo las más altas de las 100 puntuaciones. Cada sorteo independiente es una nueva oportunidad de superar el valor esperado, o de ser ignorado porque el valor obtenido no es el máximo de los 100 valores sorteados. Para una demostración visual, compare el histograma del máximo de 20 valores con el histograma del máximo de 100 valores, la diferencia en la inclinación, especialmente en las colas, es notable.
Llegué a esta respuesta de forma indirecta mientras trabajaba en un problema/pregunta relacionado que había planteado en los comentarios. Específicamente, si descubro que los resultados de una persona en un examen están en el percentil 95, esperaría que, en promedio, si los pongo en una habitación con otros 99 examinados, su rango sería en promedio de 95. Esto resulta ser más o menos así (código R)...
for (i in 1:NSIM)
{
rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)
Como extensión de esa lógica, también esperaba que si tomaba a 100 personas en una sala y seleccionaba a la persona con la 95ª puntuación más alta, luego tomaba a otras 99 personas y les hacía hacer la misma prueba, eso de media la persona seleccionada se situaría en el puesto 95 del nuevo grupo. Pero este no es el caso (código R)...
for (i in 1:NSIM)
{
testtakers <- rnorm(100)
testtakers <- testtakers[order(testtakers)]
testtakers <- testtakers[order(testtakers)]
ranked95 <- testtakers[95]
rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)
Lo que diferencia el primer caso del segundo es que en el primero la puntuación del individuo lo sitúa exactamente en el percentil 95. En el segundo caso, su puntuación puede resultar algo superior o inferior al verdadero percentil 95. Como no es posible que se clasifiquen por encima de 100, los grupos que producen una puntuación de rango 95 que en realidad está en el percentil 99 o superior no pueden compensar (en términos de rango medio) los casos en los que la puntuación de rango 95 es mucho más baja que el verdadero percentil 90. Si se observan los histogramas de los dos vectores de rango proporcionados en esta respuesta, es fácil ver que hay una restricción de rango en los extremos superiores que es consecuencia de este proceso que he estado describiendo.