Los puntajes Z son estimaciones escaladas por el error estándar estimado de esas estimaciones. Digamos que tenemos dos estimaciones de dos muestras $$Z_1 = \frac{\bar{X}_1}{\sigma\sqrt{n_1}} = \frac{1}{\sigma\sqrt{n_1}} \sum_{k=1}^{n_1} X_{1k} \\ Z_2 = \frac{\bar{X}_2}{\sigma\sqrt{n_2}} = \frac{1}{\sigma\sqrt{n_2}} \sum_{k=1}^{n_2} X_{2k} $$
donde $\sigma$ es el error en las observaciones individuales $X_{ik}$ (que para simplificar asumimos como iguales en ambos grupos) y $n_1$ y $n_2$ son los tamaños de muestra.
Aquí puedes ver que si simplemente sumas $Z_1$ y $Z_2$ juntos con pesos iguales, entonces las observaciones individuales $X_{ik}$ no reciben pesos iguales, lo cual es menos eficiente.
$$\sqrt{0.5} Z_1 + \sqrt{0.5} Z_1 = \sum_{i \in [1,2]} \sum_{k=1}^{n_i} \left( \frac{\sqrt{0.5}}{\sigma\sqrt{n_i}} X_{ik} \right)$$
La justificación es que una media ponderada tendrá un error estándar más pequeño en comparación con una media aritmética no ponderada. (Desde una perspectiva diferente, la justificación es un mayor puntaje Z medio en lugar de un error estándar más pequeño, ver al final)
Esto se relaciona un poco con mínimos cuadrados generalizados, y mínimos cuadrados ponderados, los cuales tienen la tarea de calcular una estimación cuando los puntos de datos observados no tienen la misma varianza/error.
Lo que estás haciendo es calcular un promedio que es un estimador lineal y los mínimos cuadrados generalizados, que usarán una media ponderada basada en la varianza de los términos individuales, es el mejor estimador lineal no sesgado.
Ejemplo de una media ponderada que tiene una menor varianza:
Ejemplo: Si tienes dos observaciones distribuidas como
$$\bar{x}_1 \sim N(\mu, \sigma_1^2)\\ \bar{x}_2 \sim N(\mu, \sigma_2^2)$$
entonces la media ponderada (con pesos $a_1+a_2=1$) se distribuirá como
$$a_1 z_1 +a_2 z_2 \sim N(\mu, \sigma^2)$$
con la varianza de una suma ponderada $$\sigma^2 = a_1^2 \sigma_1^2 + a_2^2 \sigma_2^2 = \sigma_1^2 -2 a_2 \sigma_1^2 + a_2^2 (\sigma_2^2+\sigma_1^2)$$
que tiene un mínimo en $a_2 = \frac{\sigma_1^2}{\sigma_1^2+\sigma_2^2}$.
Intuitivamente:
Imagina que tienes un estudio con un tamaño de muestra de 1000 y un estudio con un tamaño de muestra de 10. La estimación del estudio más pequeño tiene un error muy grande. Cuando promedias los resultados de ambos cincuenta-cincuenta, entonces la propagación del error del estudio inexacto contará cincuenta por ciento y llevará a un gran error en el resultado final.
El promedio no ponderado de dos números, uno con un error pequeño y otro con un error grande, no tendrá un error pequeño sino un error medio. Así que la media empeora la situación (porque ya tenías un número con un error pequeño).
¿Es esto porque la varianza del puntaje Z es proporcional a 1/n, donde n es el tamaño de muestra, por lo que la varianza inversa es proporcional a n?
Los puntajes Z tienen varianza 1, porque están normalizados, pero tienen diferentes medias.
El puntaje Z se distribuye aproximadamente como $N(\mu/\sqrt{n},1)$. Donde $\mu$ es la media poblacional. Si $\mu$ no es cero, entonces las muestras más grandes tendrán puntajes Z más grandes y es por eso que quieres darles un peso más fuerte.
Así que la comparación con GLS arriba, que se trata de diferentes varianzas en lugar de diferentes medias, es un poco retorcida, pero superficialmente el principio está relacionado. Si calculas los puntajes Z de vuelta a las medias de la población, entonces cuenta la comparación de GLS y el objetivo es obtener una suma lineal que estime la media de la población y tenga la menor varianza posible (una varianza más pequeña significa un puntaje Z más grande).