31 votos

¿Hay 99 percentiles o 100 percentiles? ¿Y son grupos de números, o divisores o indicadores de números individuales?

¿Hay 99 percentiles o 100 percentiles? ¿Y son grupos de números, o líneas divisorias, o indicadores de números individuales?

Supongo que la misma pregunta se aplicaría a los cuartiles o a cualquier cuantil.

He leído que el índice de un número en un determinado percentil(p), dados n ítems, es i = (p / 100) * n

Eso me sugiere que hay 100 percentiles.. porque suponiendo que tienes 100 números(i=1 a i=100), entonces cada uno tendría un índice(1 a 100).

Si tuvieras 200 números, habría 100 percentiles, pero cada uno se referiría a un grupo de dos números. O 100 divisores excluyendo el divisor del extremo izquierdo o del extremo derecho, porque de lo contrario tendrías 101 divisores. O punteros a números individuales, de modo que el primer percentil se referiría al segundo número, (1/100)*200=2 Y el centésimo percentil se referiría al número 200 (100/100)*200=200

Aunque a veces he oído que hay 99 percentiles..

Google muestra el diccionario oxford que dice de percentil- "cada uno de los 100 grupos iguales en que puede dividirse una población según la distribución de valores de una variable determinada." y "cada uno de los 99 valores intermedios de una variable aleatoria que dividen una distribución de frecuencias en 100 grupos semejantes."

Wikipedia dice que "el percentil 20 es el valor por debajo del cual puede encontrarse el 20% de las observaciones". Pero, ¿significa realmente "el valor por debajo o igual al cual puede encontrarse el 20% de las observaciones", es decir, "el valor para el cual el 20% de los valores son <= a él"? Si fuera sólo < y no <=, entonces, por ese razonamiento, el percentil 100 sería el valor por debajo del cual puede encontrarse el 100% de los valores. He oído eso como argumento de que no puede haber percentil 100, porque no se puede tener un número en el que haya el 100% de los números por debajo de él. Pero creo que tal vez ese argumento de que no se puede tener un percentil 100 es incorrecto y se basa un error que la definición de un percentil implica <= no <. (o >= no >). Así que el percentil 100 sería el número final y sería >= 100% de los números.

5 votos

Me parece poco probable que 100 sea una respuesta razonable debido a su tratamiento asimétrico de los extremos. Se puede argumentar a favor del 99 (como en la definición que citas) o del 101.

6 votos

Históricamente, los cuantiles -como ahora decimos genéricamente- eran primero puntos de resumen, y luego, por extensión, los bins, clases o intervalos que delimitan. Así, tres cuartiles, incluida la mediana, definen cuatro intervalos, y así sucesivamente.

0 votos

@NickCox ¿Tienes una fuente para eso?

35voto

Danail Nachev Puntos 2863

Ambos sentidos de percentil , cuartil y así sucesivamente. Es más fácil ilustrar la diferencia con cuartiles:

  1. el sentido "divisor" - hay 3 cuartiles, que son los valores que dividen la distribución (o muestra) en 4 partes iguales:

       1   2   3
    ---|---|---|---

    (A veces se utiliza con los valores máximo y mínimo incluidos, por lo que hay 5 cuartiles numerados del 0 al 4; tenga en cuenta que esto no entra en conflicto con la numeración anterior, sólo la amplía).

  2. el sentido "bin": hay 4 cuartiles, los subconjuntos en los que esos 3 valores dividen la distribución (o muestra)

     1   2   3   4
    ---|---|---|---

Ninguno de los dos usos puede calificarse razonablemente de "erróneo": ambos son utilizados por muchos profesionales experimentados y ambos aparecen en numerosas fuentes autorizadas (libros de texto, diccionarios técnicos y similares).

En el caso de los cuartiles, el sentido que se utiliza suele estar claro por el contexto: al hablar de un valor en el tercer cuartil sólo puede ser el sentido "bin", mientras que hablar de todos los valores por debajo del tercer cuartil lo más probable es que se refiera al sentido "divisor". Con los percentiles, la distinción es más a menudo confusa, pero tampoco es tan significativa para la mayoría de los propósitos, ya que el 1% de una distribución es muy pequeño: una franja estrecha es aproximadamente una línea. Hablando de todos los que superan el percentil 80 puede significar el 20% superior o el 19% superior, pero en un contexto informal eso no es una diferencia importante, y en un trabajo riguroso, el significado necesario debería estar presumiblemente aclarado por el resto del contexto.

(Partes de esta respuesta son una adaptación de https://math.stackexchange.com/questions/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles que también ofrece citas y referencias).

4 votos

(+1) Esta respuesta tardía da en el clavo.

0 votos

¿Qué pasa con es.wikipedia.org/wiki/Percentile dice "cada puntuación está en el percentil 100" <-- que suena como un contenedor del tamaño de todo el conjunto de datos, mientras que sus contenedores son todos del mismo tamaño

4 votos

La entrada de Wikipedia sí lo dice. No se me ocurre ninguna defensa para semejante redacción. Wikipedia es maravillosa, excepto cuando es engañosa o errónea. Esto sonará frívolo, pero todo lo que puedo hacer es animar a cualquiera que esté mirando y sea activo en Wikipedia a que mejore la entrada. Todo el mundo tiene que tener normas sobre lo que hace y lo que no hace, y ser activo aquí y en algunos otros sitios es mi límite personal.

5voto

user86176 Puntos 6

Tómate esta respuesta con cautela: empezó bastante mal y aún estoy decidiendo qué hacer con ella.

La pregunta trata en parte de la lengua y los usos, mientras que esta respuesta se centra en las matemáticas. Espero que las matemáticas sirvan de marco para comprender los distintos usos.

Una buena manera de tratar este tema es empezar con matemáticas sencillas y retroceder hasta el caso más complicado de los datos reales. Empecemos con las PDF, las CDF y las CDF inversas (también conocidas como funciones cuantílicas). En $x$ cuantil de una distribución con pdf $f$ y cdf $F$ es $F^{-1}(x)$ . Supongamos que el $z$ percentil es $F^{-1}(z/100)$ . Esto nos permite precisar la ambigüedad que usted identifica: podemos examinar situaciones en las que $F$ es 1) no invertible, 2) sólo invertible en un determinado dominio, o 3) invertible pero su inversa nunca alcanza determinados valores.

Ejemplo de 1): Dejaré esto para el final; sigue leyendo.

Ejemplo de 2): Para una distribución uniforme 0,1, la FCD es invertible cuando se restringe a [0, 1], por lo que los percentiles 100 y 0 podrían definirse como $F^{-1}(1)$ y $F^{-1}(0)$ teniendo en cuenta esa advertencia. De lo contrario, están mal definidos, ya que $F(-0.5)$ (por ejemplo) también es 0.

Otro ejemplo de 2): Para una distribución uniforme en los dos intervalos disjuntos de 0 a 1 y de 2 a 3, la FDA tiene este aspecto.

enter image description here

La mayoría de los cuantiles de esta distribución existen y son únicos, pero la mediana (percentil 50) es intrínsecamente ambigua. En R, van por la mitad: quantile(c(runif(100), runif(100) + 2), 0.5) devuelve alrededor de 1,5.

Ejemplo de 3): Para una distribución normal, los percentiles 100 y 0 no existen (o "son" $\pm \infty$ ). Esto se debe a que la FCD normal nunca alcanza 0 o 1.

Discusión de 1): Para cdf's "bonitas", como con cuantiles no extremos o distribuciones continuas, los percentiles existen y son únicos. Pero para una distribución discreta como la distribución de Poisson, mi definición es ambigua porque para la mayoría de las $z/100$ no hay $y$ con $F(y) = z/100$ . Para una distribución de Poisson con expectativa 1, la FDA tiene el siguiente aspecto.

enter image description here

Para el percentil 60, R devuelve 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60) ). Para el percentil 65, R también devuelve 1. Puede pensar en esto como si extrajera 100 observaciones, las clasificara de menor a mayor y devolviera el 60º o 65º elemento. Si hace esto, la mayoría de las veces obtendrá 1.

Cuando se trata de datos reales, todas las distribuciones son discretas. (La FDA empírica de runif(100) o np.random.random(100) tiene 100 incrementos agrupados en torno a 0,5). Pero, en lugar de tratarlos como discretos, R quantile parece tratarlas como muestras de distribuciones continuas. Por ejemplo, la mediana (el percentil 50 o cuantil 0,5) de la muestra 3,4, 5, 6, 7, 8 se da como 5,5. Si extrae 2n muestras de una distribución unif(3,8) y toma cualquier número entre la muestra n y (n+1)ª, convergerá en 5,5 a medida que aumente n.

Es interesante considerar también la distribución uniforme discreta con igual probabilidad de acertar 3,4,5,6,7,8. (Una tirada de dado más dos.) Si adopta el enfoque de muestreo y rango descrito anteriormente para la distribución de Poisson, normalmente obtendrá 5 ó 6. A medida que las muestras aumentan, la distribución para el número de la mitad hacia arriba convergerá en la mitad de cincos y la mitad de seises. En este caso, 5,5 también parece un compromiso razonable.

2 votos

Su primer párrafo contiene información incorrecta: $F^{-1}$ es realmente único en muchos casos, incluyendo para la distribución uniforme en $[0,1]$ (cuando $F$ se limita a $[0,1]$ sí mismo). Esto tiene poco que ver con $F$ siendo "constante". Creo que estás haciendo argumentos engañosos que mezclan los papeles de continuidad, invertibilidad, y limitación del apoyo de distribuciones. Introducir estimadores y referirse a ellos también como "cuantiles" es interesante, pero amenaza con hacer las cosas aún más confusas.

0 votos

Buena observación. He intentado separar algunos casos para aclararlo. ¿Cómo mejorarías la discusión sobre la continuidad? La interpretación de los cuantiles como estimadores es el punto central de mi respuesta; realmente no tienen sentido para mí sin eso.

0 votos

Sobre esto último: los cuantiles no necesitan estimar nada. Son útiles por sí mismos para describir y visualizar datos (y a menudo se utilizan sólo como estadísticas descriptivas). En cuanto a la continuidad: creo que la mayoría de las autoridades dirían que todos los percentiles existen para distribuciones discretas. Insistir en lo contrario es una complicación innecesaria. También haría que los resultados de la mayoría de los cálculos de software fueran totalmente misteriosos, ya que proporcionan felizmente todos los cuantiles de 0 a 1 ( inclusivo ) para cualquier conjunto de datos. En R por ejemplo, escriba quantile(0) .

3voto

naive Puntos 73

Hay otras formas de calcular los percentiles, la que sigue no es la única. Tomado de este Fuente .


El significado de percentil puede captarse afirmando que el $p$ percentil de una distribución es un número tal que aproximadamente $p$ por ciento ( $p\%$ ) de los valores de la distribución son iguales o inferiores a ese número. Por tanto, si $28$ est le $80$ percentil de un lote mayor de números, $80$ % de esas cifras son inferiores o iguales a $28$ .

Para calcular los percentiles, ordena los datos de forma que $x_1$ es el valor más pequeño, y $x_n$ es el más grande,

con $n$ = número total de observaciones, $x_i$ est le $p_i$ percentil del conjunto de datos donde:

$p_i = \dfrac{100(i - 0.5)}{n}$

Ejemplo de las mismas notas a título ilustrativo:

enter image description here

Por poner un ejemplo, $7$ est le $50$ de la distribución, y aproximadamente la mitad de los valores de la distribución son iguales o inferiores a $7$ .

Si tuvieras 200 números, habría 100 percentiles, pero cada uno se referiría a un grupo de dos números.

No.

Suponiendo que los números estén ordenados de forma ascendente desde $x_1$ à $x_\mathrm{200}$ . En este caso los percentiles son:

$\dfrac{100(1-0.5)}{200}$ , $\dfrac{100(2-0.5)}{200}$ , $\dfrac{100(3-0.5)}{200}$ , $...$

resultando en

$0.25, 0.75, 1.25 ... $ percentiles correspondientes a los índices $1, 2, 3, ...$

4 votos

La primera frase tiene muy buena pinta, y una de las palabras más importantes es aproximadamente A continuación, una explicación detallada de una sola receta. La clave es que hay varias recetas y la mayoría, si no todas, tienen una lógica defendible (a veces la lógica es simplificar las cosas al máximo). Véase el artículo de Hyndman y Fan al que se hace referencia en muchos hilos aquí en CV. Dudo que mucha gente tome tu último párrafo como la forma de reportar percentiles para tu ejemplo.

0 votos

@Nick Cox Gracias por este comentario tan perspicaz. Sobre el último párrafo creo que el método debería funcionar bien cuando todas las observaciones son diferentes entre sí. En caso de números repetidos no habrá percentil único para el mismo número que no suena bien. ¿Podría sugerirnos cómo tratar este caso? Y ¿podría señalar también las posibles trampas del último párrafo?

1 votos

No creo que quiera ni necesite añadir nada a lo que ya está bien explicado en la bibliografía de las revistas. En primer lugar, tienes algún programa favorito para esto. Vea lo que documenta y lo que hace. En segundo lugar, no he calculado percentiles a mano desde hace algunas décadas, y ninguno de nosotros necesita hacerlo. Tercero, mi comentario sobre el último párrafo: Supongo que nadie quiere que le digan que los puntos de datos observados son los percentiles 0,25, 0,75, 1,25, .... Lo que la gente quiere varía, pero en mi experiencia lo más habitual es querer resúmenes como los puntos 1, 5, 10, 25, 50, 75, 90, 95, 99%, así como los extremos de la muestra.

2voto

mkt Puntos 688

Me enseñaron que una observación en el enésimo percentil era mayor que el n% de las observaciones del conjunto de datos considerado. Lo que para mí implica que no hay percentil 0 ni percentil 100. Ninguna observación puede ser mayor que el 100% de las observaciones porque forma parte de ese 100% (y una lógica similar se aplica en el caso del 0).

Edición: Por si sirve de algo, esto también es coherente con el uso no académico del término que he encontrado: "X es en el percentil n " implica que el percentil es el grupo, no un límite.

Lamentablemente, no dispongo de ninguna fuente a la que pueda remitirle.

6 votos

¿Tiene alguna referencia fidedigna de lo que recuerda que le enseñaron? Tenga en cuenta que está adoptando implícitamente una definición de "percentil" como un grupo de números. La otra definición citada en la pregunta es que el percentil es un límite entre dichos grupos.

0 votos

@whuber Lamentablemente no. Y sí, veo la distinción.

1 votos

Eso no tiene sentido para mí porque supongamos que sus datos son 2,2,2,2,2,2,2,2,2,2,2 por lo que un elemento en un cuantil es igual a un elemento a su izquierda en un cuantil anterior. Así que un elemento en el enésimo cuantil no es mayor que todos los cuantiles a su izquierda. Así que un elemento en el enésimo percentil no es mayor que el n% de las observaciones en el conjunto de datos. Es >= n% de las observaciones del conjunto de datos, pero no simplemente >. Y, por lo tanto, se puede tener un percentil 100. ¿Qué opinas de esta lógica?

0voto

ltip3 Puntos 26

Nota- Aceptaré la respuesta de otra persona en lugar de la mía. Pero veo algunos comentarios útiles así que estoy escribiendo una respuesta que menciona esos.

Basado en la respuesta de Nick "-iles" terminología para el medio por ciento superior

parece que los términos son ambiguos, y supongo (basado en mi comprensión de ese post), mejor terminología sería X% punto, y X%-Y% grupo; por lo que el punto de cuantiles (por lo que para los puntos de cuartiles que podría ser cualquier cosa de 0 a 4); grupo de cuantiles que van desde X punto de cuantiles a Y punto de cuantiles.

De cualquier forma se obtendría 101 para los percentiles, aunque un comentario sugiere que se podría hacer referencia a 101 puntos (supongo que si se contaran puntos percentiles, y sólo enteros), pero incluso entonces, si se habla de 1º, 2º, 3º, percentil o cuantil, es contar y no se puede contar el primero como 0, y no se puede tener por ejemplo más de 4 cuartiles o más de 100 percentiles. Así que si se habla de 1º, 2º, 3º, esa terminología no puede referirse realmente al punto 0. Si alguien dijera punto 0, entonces, aunque está claro que se refiere al punto 0, creo que en realidad debería decir cuantil punto 0. O grupo de cuantiles en el punto 0. Ni siquiera los informáticos dirían 0º; incluso ellos cuentan el primer elemento como 1, y si lo llaman elemento 0, eso es una indexación a partir de 0, no un recuento.

Un comentario menciona "No puede haber 100. O 99 o 101, según cuentes el máximo y el mínimo". Creo que hay un caso para 99 o 101, cuando se habla de puntos cuantílicos en lugar de grupos, aunque yo no diría 0º. Para n elementos, un índice puede ir de 0...n-1 y no se escribiría th/st, por ejemplo, 1st, 2nd, etc., en un índice (a menos que el índice indexe el primer elemento como 1). Pero un índice que comienza el primer elemento con el índice de 0 no es un 1er, 2do 3er recuento. Por ejemplo, el elemento con el índice de 0 es el 1er elemento, uno no diría 0th y etiquetaría el segundo elemento 1st.

0 votos

Cualquier ambigüedad fue introducida por quienes se apartaron de un precedente histórico claro. En la práctica no muerde.

1 votos

Todos los matemáticos empiezan a contar por cero. El concepto es sencillo y natural: pronunciar la palabra "cero" en voz alta anuncia la intención de contar. A continuación, se realiza una asignación unívoca (quizá arbitraria) de la secuencia de palabras "uno", "dos", "tres", etc. a los objetos que se cuentan. La última de esas palabras (si hay una última) se equipara a la cardinalidad del conjunto. Lo bueno de esta idea es que cuando no hay elementos en el conjunto, la última palabra dicha fue "cero", que es el único valor correcto.

0 votos

@whuber escribes "Todos los matemáticos empiezan a contar por cero" <-- ¿Dónde crees que he dicho lo contrario?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X