51 votos

¿Por qué la mediana de edad es mejor estadística que la media de edad?

alt text

alt text

Claramente mediana parece ser la estadística elegida cuando se trata de las edades.

No soy capaz de explicarme por qué media aritmética sería una estadística peor. ¿Por qué es así?

Publicado originalmente <a href="https://math.stackexchange.com/questions/4380/why-is-median-age-a-better-statistic-than-mean-age">aquí </a>porque no sabía que existía este sitio.

4 votos

¿Parece que ya tenías una respuesta razonable en el otro sitio?

1 votos

@Shane: ¿Pero tal vez los diferentes sitios tienen el potencial de obtener diferentes respuestas desde diferentes puntos de vista?

53voto

jldugger Puntos 7490

En mi opinión, las estadísticas no ofrecen una buena respuesta a esta pregunta. Una media puede ser relevante en los estudios de mortalidad, por ejemplo, pero las edades no son tan fáciles de medir como se podría pensar. Las personas mayores, los analfabetos y los habitantes de algunos países del tercer mundo tienden a redondear sus edades a un múltiplo de 5 o 10, por ejemplo.

La mediana es más resistente a estos errores que la media. Además, las edades medias suelen ser de 20 a 40 años, pero la gente puede vivir hasta los 100 años o más (una proporción cada vez mayor y notable de la población de los países modernos vive ya más allá de los 100 años). Las personas de esa edad tienen entre 1,5 y 4 veces más influencia en la media que en la mediana, en comparación con las personas muy jóvenes. Por lo tanto, la mediana es una estadística un poco más actualizada en cuanto a la distribución de la edad de un país y es un poco más independiente de las tasas de mortalidad y de la esperanza de vida que la media.

Por último, la mediana nos da una imagen ligeramente mejor de cómo es la distribución de la edad en sí: cuando se ve una mediana de 35 años, por ejemplo, se sabe que la mitad de la población es mayor de 35 años y se pueden inferir algunas cosas sobre las tasas de natalidad, las edades de los padres, etc.; pero si la media es de 35 años, no se puede decir tanto, porque ese 35 podría estar influenciado por un gran aumento de la población a los 70 años, por ejemplo, o tal vez un vacío poblacional en alguna franja de edad debido a una antigua guerra o epidemia.

Así, para demográfica, no estadístico, razones, una mediana parece más digna de desempeñar el papel de un valor ómnibus para resumir las edades de poblaciones relativamente grandes de personas.

1 votos

Creo que querías decir que "la mediana es más resistente a esos errores que la media". Sin embargo, estoy de acuerdo con tus comentarios, y creo que el censo de EE.UU. suele informar de las medianas de muchas categorías en los informes oficiales (no sólo de la edad) básicamente por las mismas razones. Los ingresos son quizás un mejor ejemplo que la edad para ilustrar estos puntos.

0 votos

Has sustituido un hecho -la media es sensible a los valores atípicos/distribuciones asimétricas- por una afirmación de valor sobre la preferencia de la mediana sobre la media. En efecto, has argumentado que no se debe preferir la media porque no es la mediana (de forma parecida a quienes dicen que sólo se debe utilizar la media en distribuciones simétricas, es decir, cuando la media y la mediana son iguales).

1 votos

@Alexis No sigo tu crítica. ¿Podrías explicarte mejor? Al fin y al cabo, esta respuesta aporta mucho más que "un dato": contiene bastantes, junto con un análisis de sus implicaciones. ¿Y a qué "declaración de valores" te refieres concretamente?

14voto

Binarytales Puntos 1145

Aquí está mi respuesta publicada por primera vez en math.stackexchange:

La mediana es lo que mucha gente tiene en mente cuando dice "media". Es más fácil interpretar la mediana: la mitad de la población está por encima de esta edad y la otra mitad por debajo. La media es un poco más sutil.

La gente busca la simetría y a veces la impone cuando no existe. La distribución de la edad en una población dista mucho de ser simétrica, por lo que la media podría ser engañosa. Las distribuciones de edad son algo así como una pirámide. Muchos niños, pocos ancianos. (O al menos así es en una especie de estado estacionario. En Estados Unidos, la generación del baby boom posterior a la Segunda Guerra Mundial ha distorsionado esta distribución a medida que envejece. Algunas personas han llamado a esto "cuadrar la pirámide" porque los boomers han hecho que la parte superior de la pirámide sea más ancha que en el pasado).

Con una distribución asimétrica, puede ser mejor informar de la mediana porque es una estadística simétrica. La mediana es simétrica aunque la distribución muestral no lo sea.

0 votos

¿En qué sentido es la mediana un estadístico "simétrico"? Desde luego, no es que las distribuciones tiendan a estar distribuidas simétricamente en torno a sus medianas (ni en torno a sus medias). Si te refieres simplemente a lo que has escrito en otro comentario de que la "mediana divide la población por la mitad" (que define la mediana), tu argumento suena circular: ¡la mediana es buena porque la mediana es la mediana!

7voto

¿Por qué un hacha es mejor que un hacha?

Eso es similar a tu pregunta. Simplemente significan y hacen cosas diferentes. Si se habla de medianas, la historia que se intenta transmitir, el modelo que se intenta aplicar a los datos, es diferente al de las medias.

3voto

Alan Puntos 7273

No creo que haya una buena razón descriptiva para elegir la mediana en lugar de la media para las distribuciones de edad. Hay una de practicidad cuando se comparan los datos reportados.

Muchos países informan de su población en intervalos de edad de 5 años con la banda superior abierta. Esto provoca algunas dificultades para calcular la media a partir de los intervalos, especialmente para el intervalo más joven (afectado por las tasas de mortalidad infantil), el "intervalo" superior (¿cuál es la media de un "intervalo" de más de 80 años?) y los intervalos casi superiores (la media de cada intervalo suele ser inferior a la del medio).

Es mucho más fácil estimar la mediana interpolando dentro del intervalo de la mediana, a menudo aproximándose asumiendo una distribución de la edad plana o trapezoidal en ese intervalo (las tasas de mortalidad en muchos países son relativamente bajas alrededor de la mediana de edad, lo que hace que esta sea una aproximación más razonable que para los jóvenes o los ancianos).

2voto

kyle Puntos 274

Estás recibiendo buenas respuestas aquí, pero déjame añadir mis dos centavos. Trabajo en farmacometría, que se ocupa de cosas como el volumen sanguíneo, la tasa de eliminación, el nivel base del efecto del fármaco, el efecto máximo del fármaco, y parámetros por el estilo.

Distinguimos entre las variables que pueden tomar cualquier valor más o menos, frente a los valores que sólo pueden ser positivos. Un ejemplo de una variable que puede tomar cualquier valor, más o menos, sería el efecto del fármaco, que podría ser positivo, cero o negativo. Un ejemplo de una variable que sólo puede ser positiva de forma realista es el volumen de sangre o la tasa de eliminación del fármaco.

Modelamos estas cosas con distribuciones que suelen ser normales o lognormales, normales para las de cualquier valor, y lognormales para las que sólo son positivas. Un número lognormal es el número E llevado a la potencia de un número con distribución normal, y por eso sólo puede ser positivo.

Para una variable con distribución normal, la mediana, la media y la moda son el mismo número, por lo que no importa cuál se utilice. Sin embargo, para una variable con distribución lognormal, la media es mayor que la mediana y la moda, por lo que no es muy útil. De hecho, la mediana es donde la normal subyacente tiene su media, por lo que es una medida mucho más atractiva.

Dado que la edad (presumiblemente) nunca puede ser negativa, una distribución lognormal es probablemente una mejor descripción de la misma que la normal, por lo que la mediana (E a la media de la normal subyacente) es más útil.

5 votos

La distribución de la edad no es ciertamente logarítmica normal.

1 votos

No creo que se pueda inferir que la edad está distribuida log-normalmente sólo por el hecho de que siempre es positiva. Las distribuciones gamma y Weibull también son siempre positivas, así que ¿por qué no elegir esas?

0 votos

@Rob: @nico: Seguro que tienes razón. Fue una mala elección de ejemplo. Normalmente modelamos parámetros farmacométricos como el volumen y el aclaramiento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X