Si he calculado la media de 4 conjuntos de datos (que tienen diferentes tamaños de muestra), ¿puedo obtener una "media global" calculando la "media de las medias"? En caso afirmativo, ¿será esta "media de las medias" la misma que si hubiera combinado los datos de los 4 conjuntos y calculado después la media?
Respuestas
¿Demasiados anuncios?No, la media de las medias de los subconjuntos no es lo mismo que la media del conjunto. Sólo será el mismo valor si los subconjuntos tienen el mismo tamaño de muestra. Si desea el promedio de la población, multiplique cada promedio por el tamaño de la muestra de la que procede para obtener el total de la población y, a continuación, divídalo por el número total de puntos de datos (tamaño de la población).
Véase el ejemplo de promedios de bateo sobre la paradoja de Simpson para una buena ilustración de por qué promediar las medias no suele funcionar.
Intentémoslo a ver si lo descubrimos. El siguiente ejemplo está codificado en R
que es gratuito y te permitirá reproducir el ejemplo, pero esperamos que el código se explique por sí mismo:
group1 = c(1,2,3)
group2 = c(4,5,6,7,8,9)
mean(group1)
# 2
mean(group2)
# 6.5
mean(c(group1, group2))
# 5
mean(c(mean(group1), mean(group2)))
# 4.25
Así que lo que vemos es que ciertamente se puede calcular la media de las medias, pero la media de las medias y la media de todos los datos brutos no coinciden. También podemos intentar una media ponderada utilizando la sugerencia de @BilltheLizard de utilizar el tamaño de la muestra de cada grupo como peso (las ponderaciones se indican con w
argumento):
weighted.mean(c(mean(group1), mean(group2)), w=c(3,6))
# 5
Esto nos da ahora la misma respuesta.
En general, si tiene un conjunto de $m$ grupos con tamaños respectivos $n_1,...,n_m$ y significa $\bar{x}_1,...,\bar{x}_m$ entonces la media muestral global de todos los datos es:
$$\bar{x} = \sum_{k=1}^m \frac{n_k}{n} \cdot \bar{x}_k \quad \quad \quad \quad \quad n = \sum_{i=1}^m n_k.$$
Así, la media global es siempre a media ponderada de las medias muestrales de los grupos. En el caso especial de que todos los grupos tengan el mismo tamaño ( $n_1 = \cdots = n_m$ ), todas las ponderaciones serán iguales y, por tanto, la media muestral global será la media de las medias muestrales de los grupos.
Sólo quiero poner un ejemplo (extremo): si tenemos un porcentaje de aciertos de (1/10000) en una muestra, y un porcentaje de aciertos de (1/2) en otro ejemplo, entonces $\sum \frac{hit_i}{total_i} \neq \frac{\sum hit_i}{\sum total_i}$ . En el primer caso (media de medias), tenemos un porcentaje de aciertos "medio" de 0,5001/2, mientras que en el segundo caso (media de totales) tenemos 3/10003, y estas dos cifras no son iguales. Que uno sea más apropiado o correcto depende de su caso de uso.
He aquí un sencillo contraejemplo que demuestra que la relación de la pregunta planteada no puede ser cierta en general. Empecemos por definir la función mean
que simplemente toma un conjunto de resultados y obtiene la media de esos resultados:
mean({x_1, ..., x_n}) := (x_1 + ... + x_n)/n,
donde n = #{x_1, ..., x_n}
(número de elementos del conjunto).
Supongamos que su conjunto son los resultados {1,2,3}
. Entonces,
mean({mean({1}), mean({2,3})}) = 1.75,
mean({1,2,3}) = 2,
mean({mean({1,2}), mean({3})}) = 2.25,
es decir, dependiendo de cómo se calcule la media de las medias (de los subconjuntos), se puede llegar a un valor menor o mayor que la media global.
Los cálculos anteriores también demuestran que no existe un orden general entre la media de las medias y la media global. En otras palabras, las hipótesis "la media de las medias es siempre mayor/menor o igual que la media global" tampoco son válidas.