2 votos

Cálculo del percentil inverso

En realidad estoy buscando una forma de indicar un punto determinado de una curva interpolada en un gráfico (véase esta pregunta ), pero a juzgar por la cantidad de respuestas que hay, eso no es posible.

Entonces, ¿hay alguna forma de calcular la coordenada que falta de ese punto?

Más formalmente:

Dado el percentil 1, 25, 50, 75, 99 y 100 de unos datos y un valor y ¿cómo calculo x s.t. y es el percentil x-ésimo (es decir, s.t. (x, y) se encuentra en la curva interpolada a partir de los percentiles mencionados)?

Si no es así, ¿puedo calcularlo si tengo acceso a los datos?

ejemplo de percentiles:

0.01    1.4
0.25    1.4
0.5     1.5
0.75    1.5
0.99    8.9
1   18907.4

mean:   8.0722091348
stdev: 220.0677459302

2voto

BruceET Puntos 7117

(a) Si sólo tienes unos pocos percentiles dispersos, entonces podrías hacer crudo interpolación. (b) Si tienes suficientes datos, puedes hacerlo mucho mejor. (c) Si conoces la FDA de la población, puedes obtener una respuesta exacta para la población.

Supongamos que conoce la distribución es $X \sim Norm(\mu = 100, \sigma=15)$ . Entonces la probabilidad de que una observación aleatoria $X$ está por debajo de 107 puede ser con programas informáticos o convirtiendo la "puntuación bruta" 107 en la puntuación estándar $Z = (107 - 100)/15 = 7/15 = .4667$ y consultoría tablas CDF impresas de la distribución normal estándar. En el software estadístico R software $P(X \le 107) = P(Z \le 7/15) = 0.6796.$

 pnorm(107, 100, 15)  # Norm(100, 15)
 ## 0.6796308
 pnorm(7/15)          # Norm(0, 1), default parameters assumed
 ## 0.6796308

Si esta distribución describe las puntuaciones obtenidas en el examen de admisión a la universidad XYZ, y la Universidad Estatal está dispuesta a aceptar estudiantes con puntuaciones dentro del 10% superior, ¿qué punto de corte del examen XYZ utilizarán? La función cuantil es la inversa de la FDA. Utilizando tablas normales impresas a la inversa o en software puedes encontrar la respuesta. Se desea $c$ tal que $P(X \le c) = .90.$ La respuesta es que probablemente insistirán en una puntuación de $c = 120$ o mejor.

qnorm(.9, 100, 15)
## 119.2233
pnorm(119, 100, 15)
## 0.8973627
pnorm(120, 100, 15)
## 0.9087888

Ahora supongamos que tienes datos. En concreto, he simulado 1000 XYZ (redondeadas a números enteros) y las he introducido en el vector x . Lo he comprobado, y la media muestral es $\bar X = 100.5$ y la muestra desviación típica es $S = 14.25,$ por lo que se trata de una muestra bastante típica.

¿Qué fracción de estos 1000 puntuaciones es igual o inferior a 107? La respuesta es 69% (no muy lejos del teórico 0,6796 anterior). Se podrían ordenar las 1000 observaciones de menor a mayor y contar el número por debajo de 107. (La expresión x <= 107 es un vector lógico de TRUE s y FALSE s. El mean de una lógica es su proporción de TRUE s.)

x = round(rnorm(1000, 100, 15))
## 100.462
## 14.25208
mean(x <= 107)
## 0.69

Qué es un número $c$ por debajo de la cual se encuentra aproximadamente el 90% de los datos? De nuevo, ¿podríamos obtener esto de una lista ordenada de las puntuaciones? La respuesta es 119. Es decir, la observación número 900 de la lista ordenada es 119.

quantile(x, .9)
##   90% 
##   119

A continuación se muestra un histograma de las 1000 puntuaciones simuladas de los exámenes. El líneas verticales muestran los valores comentados anteriormente. La curva superpuesta es la función de densidad de $Norm(100, 15).$ (El ajuste es tan bueno que cabría esperar para una muestra de tamaño 1000).

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X