2 votos

¿Cómo es posible que en R, SAS u otros paquetes haya tantas formas de calcular cuantiles? ¿No es la mediana sólo la mediana?

Como en el tema. Siempre he pensado que tenemos una definición clara y bien establecida de un cuantil sobre un vector de números. Por ejemplo, la mediana es una observación que divide el conjunto de datos de tal manera que el 50% de los datos son >= a ella y el 50% son <= a ella. En caso de un número par de números, tomamos la media de los dos valores medios consecutivos. Y eso está claro. Lo mismo puede decirse de otros cuantiles, según sea necesario, si sólo cambiamos las fracciones.

Luego leí que los cuantiles -cuartiles, percentiles, deciles y todos los demás "-iles" se deducen de la función de distribución acumulativa, pero -al fin y al cabo- conduce a los mismos resultados.

Luego empecé a aprender y utilicé dos programas informáticos para practicar, SAS, R y SQL. Cuando comparé los cuartiles calculados por las tres herramientas, ¡obtuve resultados diferentes para la mediana! Leí la documentación y descubrí que hay muchas formas de calcular los cuantiles. Cuando establecí la opción adecuada en R o SAS, las discrepancias desaparecieron, lo cual está bien, pero mis preocupaciones no desaparecieron.

¿No es la mediana sólo la mediana? Si tenemos la definición clara que se enseña en la escuela y en los libros de texto, ¿por qué tenemos que preocuparnos por el tipo correcto de cuantiles calculados?

¿Y cuál es mejor? ¿Hay algo detrás de la elección? Supongo que los estadísticos que hacen SAS y R son personas bien formadas en estadística, por lo que saben lo que hacen. Y sin embargo - eligieron diferentes algoritmos, por lo que incluso los profesionales no son consistentes en este asunto.

He oído algo de que esto devuelve un estimador del cuantil, pero si tengo todo mi conjunto de datos, la población en sí, ¡no tengo que estimar nada! ¿Cuál debo elegir entonces?

Por favor, acláreme por qué la "mediana clásica" calculada a mano apenas coincide con los resultados del software estadístico profesional. Por supuesto, las diferencias son menores, como 0,5, pero existen.

Si mi empleador y mis clientes me preguntan por qué obtengo diferentes medianas en función del software, en lugar de utilizar simplemente el método enseñado en la escuela, tendré que justificarlo de alguna manera...

3voto

lucia de finetti Puntos 30

Como en tantos casos, la simple explicación de la escuela es sencilla, pero no es realmente cierta.

El problema es que la FCD no define la mediana de forma única cuando el número de observaciones no es par (e incluso menos a menudo para otros cuantiles), y hay más de una propiedad que podría querer utilizar como criterio de desempate. Si tenemos un número par de observaciones, llamemos "intervalo de la mediana" al intervalo que contiene las dos observaciones centrales

La definición matemática habitual se basa en la inversa de la FCD, que da la "mediana izquierda", el extremo inferior del intervalo de la mediana. Esto también tiene la valiosa propiedad de que la mediana es uno de los valores de los datos observados -- en los raros casos en los que usted no está interesado en la mediana como un estimador, sino sólo como un resumen de todos los datos, sin duda debe ser un valor de los datos.

El problema de la mediana izquierda es la simetría. ¿Por qué no la mediana derecha? La FCD inversa da la mediana de la izquierda porque las FCD son continuas a la derecha, pero podrían haber sido continuas a la izquierda; los matemáticos sólo eligieron una posibilidad. Así que la mediana derecha es otra posibilidad. O, usted podría querer algún compromiso entre los dos, y eso es una manera de obtener la mediana de la escuela. Pero ahora tenemos al menos dos respuestas y posiblemente tres (si contamos la mediana derecha).

Una vez que hemos establecido que no va a haber un solo respuesta, la gente va a tratar de encontrar una respuesta "óptima", para diferentes definiciones de "óptimo". De ahí vienen todas las demás respuestas.

Entonces, ¿por qué no se ha obligado a todo el mundo a estandarizar una opción concreta? Bueno, hay tiene ha sido la normalización, sólo que ha sido diferente en los distintos ámbitos. Hay mucha información en la página de ayuda de R para quantile y el artículo de Hyndman y Fan al que hace referencia (más abajo) también es útil.

Como no faltan batallas mucho más interesantes e importantes que librar en la práctica estadística, muy poca gente se ha preocupado de intentar imponer una definición única de la mediana a nivel mundial. Un software bien diseñado te permitirá calcular la que quieras, y eso es todo lo que necesitas.

Hyndman, R. J., y Yanan, F. (1996). Cuantiles de muestra en paquetes estadísticos . El Estadístico Americano , 50(4), 361-365.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X