En el nivel AP puede ser mejor que te centres en algunos ejemplos. La media y la mediana son dos de las muchas formas diferentes de resumir los datos. Es de suponer que la persona que se tomó la molestia de recopilar los datos tenía una razón para hacerlo, y es importante que un estadístico entienda esa razón.
Sueldos de los empleados de una empresa. Suelen tener muchos números bajos con algunos números altos mezclados. La mediana podría dar un resumen más justo de lo que se paga a la mayoría de los trabajadores. Si alguien está interesado en cómo encontrar el dinero para pagar a todo el mundo, entonces la media sería probablemente la mejor porque se deriva de la nómina total. Si estamos interesados en el impacto del aumento del salario mínimo, podemos ignorar tanto la media como la mediana y limitarnos a observar los salarios de la cuarta parte de los trabajadores peor pagados.
Flujo respiratorio de los pacientes con asma. A estos pacientes se les puede pedir que expulsen todo el aire posible en poco tiempo mientras medimos el volumen. Puede haber muchos números realmente bajos. Quizá la mediana sea lo mejor para centrarse en ellas. Pero me gustaría saber qué significan realmente las cifras más bajas. ¿Indican que hay pacientes cuyo asma está bastante bien controlada, pero que son los peores de nuestro grupo, o indican que hay personas que tienen problemas realmente graves y que necesitan atención urgente? Si me pregunto si estos pacientes respiran mejor que otro grupo que vimos la semana pasada, querría comparar las medias de los dos grupos.
Magnitudes de los terremotos. Puedes entrar en una página web y obtener las magnitudes de todos los terremotos de California del último mes. Habrá muchos números muy bajos que corresponden a eventos sísmicos detectables sólo por instrumentos muy sensibles. (Normalmente, los valores por debajo de 1,5 en la escala de Richter se ignoran porque pueden haber sido explosiones mineras, ruidos de construcción, etc.) Puede haber algunos terremotos de alrededor de 3 o 4 en la escala, que sólo fueron sentidos por unas pocas personas cerca del epicentro y que no causaron ningún daño real. Si se produce un terremoto de magnitud 6,5, puede ser el único número de unos cientos que tenga importancia para el público en general. Para la mayoría de la gente, este número atípico es el único que importa.
Datos de escala ordinal. Supón que tienes datos de una encuesta en la que se pregunta si la gente está a favor de un impuesto sobre los refrescos azucarados para pagar los deportes extraescolares. Las posibles respuestas podrían ser: "1=Muy en contra", "2=Opuesto", "3=Neutral", "4=Favorable" y "5=Muy a favor". Dado que estas opiniones pueden ordenarse desde la más opuesta a la más favorable, podríamos elegir la opinión media de la lista ordenada y decir que es la opinión mediana. Es dudoso que la media sirva de algo. (Los números son sólo etiquetas sustitutivas y no pueden sumarse realmente, por lo que no hay una suma verdadera ni una media real). Tal vez la moda, la opinión más común, sería de interés.
Los promedios de calificaciones pueden ser difíciles de interpretar por razones similares. Las notas F, F, A, A no son lo mismo que cuatro C. Históricamente, los GPAs se utilizaron porque los promedios de muchos "números" son más fáciles de calcular que las medianas, y el cálculo de las GPMs (Medias de Puntos de Calificación) habría sido imposible antes de los ordenadores modernos. Puedes pensar si las GPMs podrían ser mejores que las GPAs.
Medidas de dispersión. A veces, las medidas de dispersión, como la desviación estándar, son importantes además de las medidas de centralidad, como la media y la mediana. La temperatura media anual en algunos lugares del Medio Oeste de EE.UU. es la misma que en la zona de la bahía de San Francisco. Pero la dispersión de las temperaturas es notablemente mayor en el Medio Oeste. Si se obtiene una media (o mediana) de 55 a partir de números entre 35 y 85 (Fahrenheit), es muy diferente de obtener una media (o mediana) de 55 a partir de números que van de -20 a 110.
Comprender primero, resumir después. Hoy en día, los estadísticos trabajan con conjuntos de datos cada vez más grandes. En el futuro necesitaremos, sin duda, estadísticas descriptivas distintas de las que se pueden discutir en las clases de estadística AP.
No pretendo ignorar las "propiedades" de la media y la mediana. Vale la pena que si tienes medias de dos grupos de 20 puedes encontrar la media de los 40, pero esto no funciona para las medianas. Pero el punto de partida importante es comprender el propósito y el significado de los datos y luego utilizar estadísticas descriptivas (y gráficos) que transmitan honestamente ese significado.
Sé que es común en los cursos de estadística elemental -especialmente en los impartidos por personas que han hecho poco análisis de datos reales- referirse a la media, la mediana, la desviación estándar, etc. como "funciones". Pero esa palabra centra la atención en la mecánica. Tal vez sea más útil pensar en estos números como "descripciones".