(a) Si sólo tienes unos pocos percentiles dispersos, entonces podrías hacer crudo interpolación. (b) Si tienes suficientes datos, puedes hacerlo mucho mejor. (c) Si conoces la FDA de la población, puedes obtener una respuesta exacta para la población.
Supongamos que conoce la distribución es $X \sim Norm(\mu = 100, \sigma=15)$ . Entonces la probabilidad de que una observación aleatoria $X$ está por debajo de 107 puede ser con programas informáticos o convirtiendo la "puntuación bruta" 107 en la puntuación estándar $Z = (107 - 100)/15 = 7/15 = .4667$ y consultoría tablas CDF impresas de la distribución normal estándar. En el software estadístico R software $P(X \le 107) = P(Z \le 7/15) = 0.6796.$
pnorm(107, 100, 15) # Norm(100, 15)
## 0.6796308
pnorm(7/15) # Norm(0, 1), default parameters assumed
## 0.6796308
Si esta distribución describe las puntuaciones obtenidas en el examen de admisión a la universidad XYZ, y la Universidad Estatal está dispuesta a aceptar estudiantes con puntuaciones dentro del 10% superior, ¿qué punto de corte del examen XYZ utilizarán? La función cuantil es la inversa de la FDA. Utilizando tablas normales impresas a la inversa o en software puedes encontrar la respuesta. Se desea $c$ tal que $P(X \le c) = .90.$ La respuesta es que probablemente insistirán en una puntuación de $c = 120$ o mejor.
qnorm(.9, 100, 15)
## 119.2233
pnorm(119, 100, 15)
## 0.8973627
pnorm(120, 100, 15)
## 0.9087888
Ahora supongamos que tienes datos. En concreto, he simulado 1000 XYZ (redondeadas a números enteros) y las he introducido en el vector x
. Lo he comprobado, y la media muestral es $\bar X = 100.5$ y la muestra desviación típica es $S = 14.25,$ por lo que se trata de una muestra bastante típica.
¿Qué fracción de estos 1000 puntuaciones es igual o inferior a 107? La respuesta es 69% (no muy lejos del teórico 0,6796 anterior). Se podrían ordenar las 1000 observaciones de menor a mayor y contar el número por debajo de 107. (La expresión x <= 107
es un vector lógico de TRUE
s y FALSE
s. El mean
de una lógica es su proporción de TRUE
s.)
x = round(rnorm(1000, 100, 15))
## 100.462
## 14.25208
mean(x <= 107)
## 0.69
Qué es un número $c$ por debajo de la cual se encuentra aproximadamente el 90% de los datos? De nuevo, ¿podríamos obtener esto de una lista ordenada de las puntuaciones? La respuesta es 119. Es decir, la observación número 900 de la lista ordenada es 119.
quantile(x, .9)
## 90%
## 119
A continuación se muestra un histograma de las 1000 puntuaciones simuladas de los exámenes. El líneas verticales muestran los valores comentados anteriormente. La curva superpuesta es la función de densidad de $Norm(100, 15).$ (El ajuste es tan bueno que cabría esperar para una muestra de tamaño 1000).