4 votos

Usando tamaños de muestra al combinar puntuaciones z

¿Cuál es la justificación teórica para utilizar la raíz cuadrada del tamaño de la muestra como peso al combinar los z-scores en un meta-análisis?

¿Es esto debido a que la varianza del z-score es proporcional a 1/n, donde n es el tamaño de la muestra, por lo que la varianza inversa es proporcional a n?

1voto

user144600 Puntos 106

Vamos a mirar el TCL. Su principal problema es la convergencia en distribución. En lugar de escribir $Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim\mathcal{N}(0,1)$, podemos escribir $\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\xrightarrow{d}\mathcal{N}(0,1)$. El TCL tiene algunas variantes, la variante de Lindeberg-Lévy lo enuncia de una manera ligeramente diferente: $\sqrt{n}(\bar{X}-\mu)\xrightarrow{d}\mathcal{N}(0,\sigma^2)$. Esto significa que la diferencia entre el promedio y la media converge a la distribución normal $\mathcal{N}(0,\sigma^2)$ con tasa $\sqrt{n}$.

Para nuestras necesidades, podemos reescribir la variante de Lindeberg-Lévy como $\sqrt{n}\left(\frac{\bar{X}-\mu}{\sigma}\right)\xrightarrow{d}\mathcal{N}(0,1)$. Es decir, la estadística $\frac{\bar{X}-\mu}{\sigma}$ converge a la distribución normal estándar $\mathcal{N}(0,1)$ con tasa $\sqrt{n}$.

¿Por qué es esto importante? Uno puede pensar en la tasa de convergencia como la rapidez de aproximación a $\mu$. Al combinar diferentes variables (lo cual depende de alguna teoría como condiciones de continuidad, teorema de Slutsky y la LLN), necesitamos asegurarnos de que tengan la misma tasa de convergencia o de lo contrario la convergencia de la suma no se cumple. Considera $Z_1=\frac{\bar{X}-\mu_X}{\sigma_X}$ y $Z_2=\frac{\bar{Y}-\mu_Y}{\sigma_Y}$. Si tienen la misma tasa de convergencia (digamos $\sqrt{n}$) entonces podemos escribir algo como $\sqrt{n}(Z_1+Z_2)\xrightarrow{d}\mathcal{N}(0,2)$. Si tienen diferentes tasas de convergencia, no podemos discutir la convergencia de una combinación.

Este tema de la tasa de convergencia (que en el TCL es $\sqrt{n}$) es la razón por la que se escribe la raíz cuadrada del tamaño de la muestra en los z-scores. La tasa de convergencia es un tema importante y no trivial, puedes leer más aquí y aquí.

0voto

user164061 Puntos 281

Los puntajes Z son estimaciones escaladas por el error estándar estimado de esas estimaciones. Digamos que tenemos dos estimaciones de dos muestras $$Z_1 = \frac{\bar{X}_1}{\sigma\sqrt{n_1}} = \frac{1}{\sigma\sqrt{n_1}} \sum_{k=1}^{n_1} X_{1k} \\ Z_2 = \frac{\bar{X}_2}{\sigma\sqrt{n_2}} = \frac{1}{\sigma\sqrt{n_2}} \sum_{k=1}^{n_2} X_{2k} $$

donde $\sigma$ es el error en las observaciones individuales $X_{ik}$ (que para simplificar asumimos como iguales en ambos grupos) y $n_1$ y $n_2$ son los tamaños de muestra.

Aquí puedes ver que si simplemente sumas $Z_1$ y $Z_2$ juntos con pesos iguales, entonces las observaciones individuales $X_{ik}$ no reciben pesos iguales, lo cual es menos eficiente.

$$\sqrt{0.5} Z_1 + \sqrt{0.5} Z_1 = \sum_{i \in [1,2]} \sum_{k=1}^{n_i} \left( \frac{\sqrt{0.5}}{\sigma\sqrt{n_i}} X_{ik} \right)$$


La justificación es que una media ponderada tendrá un error estándar más pequeño en comparación con una media aritmética no ponderada. (Desde una perspectiva diferente, la justificación es un mayor puntaje Z medio en lugar de un error estándar más pequeño, ver al final)

Esto se relaciona un poco con mínimos cuadrados generalizados, y mínimos cuadrados ponderados, los cuales tienen la tarea de calcular una estimación cuando los puntos de datos observados no tienen la misma varianza/error.

Lo que estás haciendo es calcular un promedio que es un estimador lineal y los mínimos cuadrados generalizados, que usarán una media ponderada basada en la varianza de los términos individuales, es el mejor estimador lineal no sesgado.


Ejemplo de una media ponderada que tiene una menor varianza:

Ejemplo: Si tienes dos observaciones distribuidas como

$$\bar{x}_1 \sim N(\mu, \sigma_1^2)\\ \bar{x}_2 \sim N(\mu, \sigma_2^2)$$

entonces la media ponderada (con pesos $a_1+a_2=1$) se distribuirá como

$$a_1 z_1 +a_2 z_2 \sim N(\mu, \sigma^2)$$

con la varianza de una suma ponderada $$\sigma^2 = a_1^2 \sigma_1^2 + a_2^2 \sigma_2^2 = \sigma_1^2 -2 a_2 \sigma_1^2 + a_2^2 (\sigma_2^2+\sigma_1^2)$$

que tiene un mínimo en $a_2 = \frac{\sigma_1^2}{\sigma_1^2+\sigma_2^2}$.


Intuitivamente:

Imagina que tienes un estudio con un tamaño de muestra de 1000 y un estudio con un tamaño de muestra de 10. La estimación del estudio más pequeño tiene un error muy grande. Cuando promedias los resultados de ambos cincuenta-cincuenta, entonces la propagación del error del estudio inexacto contará cincuenta por ciento y llevará a un gran error en el resultado final.

El promedio no ponderado de dos números, uno con un error pequeño y otro con un error grande, no tendrá un error pequeño sino un error medio. Así que la media empeora la situación (porque ya tenías un número con un error pequeño).


¿Es esto porque la varianza del puntaje Z es proporcional a 1/n, donde n es el tamaño de muestra, por lo que la varianza inversa es proporcional a n?

Los puntajes Z tienen varianza 1, porque están normalizados, pero tienen diferentes medias.

El puntaje Z se distribuye aproximadamente como $N(\mu/\sqrt{n},1)$. Donde $\mu$ es la media poblacional. Si $\mu$ no es cero, entonces las muestras más grandes tendrán puntajes Z más grandes y es por eso que quieres darles un peso más fuerte.

Así que la comparación con GLS arriba, que se trata de diferentes varianzas en lugar de diferentes medias, es un poco retorcida, pero superficialmente el principio está relacionado. Si calculas los puntajes Z de vuelta a las medias de la población, entonces cuenta la comparación de GLS y el objetivo es obtener una suma lineal que estime la media de la población y tenga la menor varianza posible (una varianza más pequeña significa un puntaje Z más grande).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X