5 votos

¿Cómo derivar la forma del teorema del límite central para el estimador de diferencia de medias?

En los estudios aleatorizados, tenemos que el estimador de diferencia de medias se da, para tratamiento/control como:

$$ \hat{\tau}_{DM} = \frac{1}{n_1}\sum_{Z_i = 1}Y_i - \frac{1}{n_0}\sum_{Z_i = 0}Y_i $$

donde $n_z = |\{i:Z_i = z\}|$ .

La varianza del estimador puede escribirse como

$$ Var\left(\hat{\tau}_{DM}\right|n_0,n_1) = \frac{1}{n_0}Var\left(Y_i(0)\right) + \frac{1}{n_1}Var\left(Y_i(1)\right) $$

Sé que un teorema central del límite debería parecerse a

$$ \sqrt{n}\left(\hat{\tau}_{DM} - \tau\right) \overset{D}\to \mathcal{N}\left(0, V_{DM}\right) $$

donde

$$ V_{DM} = \frac{Var\left(Y_i(0)\right)}{P(Z_i = 0)} + \frac{Var\left(Y_i(1)\right)}{P(Z_i = 1)} $$

No estoy seguro de cómo derivar $V_{DM}$ aunque parece que debería ser así intuitivamente. ¿Cómo puedo obtener la varianza?

4voto

Nikolas Ioannou Puntos 1

En primer lugar, la varianza muestral finita que tienes arriba se llama varianza conservadora de Neyman. Este resultado requiere un pequeño truco sobre cómo escribimos el estimador y una suposición de una muestra aleatoria de una población infinita.

Define, $K=\frac{n_1}{n}$ . Ahora considera,

$$\hat\tau = \bar{Y_i(1)}-\bar{Y_i(0)}=\frac{1}{n_1}\sum_{i=1}Z_iY_i - \frac{1}{n_0}\sum_i (1-Z_i)Y_i \\= \frac{1}{n}\sum_{i=1}\frac{Z_iY_i}{K} - \frac{1}{n}\sum_i \frac{(1-Z_i)Y_i}{1-K}\\=\frac{1}{n}\sum_i(\frac{Z_iY_i}{K}-\frac{(1-Z_i)Y_i}{1-K})=\frac{1}{n}\sum_i(\frac{Y_i(1)}{K}-\frac{Y_i(0)}{1-K})$$

Defina el efecto medio del tratamiento en la población o PATE mediante,

$$\tau = \mathbb{E}[Y_i(1)-Y_i(0)]$$

Entonces, como tenemos que se trata de secuencias iid por la WLLN,

$$\hat\tau \overset{p}{\to} \tau$$

Observe que $K\overset{p}{\to}\Pr[Z_i=1]$ . Así que por el teorema de Slutzky y el CLT tenemos,

$$Avar(\hat\tau)= \frac{Var(Y_i(1))}{\Pr[Z_i=1]}+\frac{Var(Y_i(0))}{\Pr[Z_i=0]}$$

donde $Avar(\cdot)$ se refiere a la varianza asintótica o a la varianza de la distribución límite del estimador.

Cediendo,

$$\sqrt{n}(\hat\tau - \tau)\overset{d}{\to}N(0,\frac{Var(Y_i(1))}{\Pr[Z_i=1]}+\frac{Var(Y_i(0))}{\Pr[Z_i=0]})$$

Como desee.

Adenda:

Lo he pasado por alto en la respuesta principal, pero pensándolo mejor creo que es útil señalarlo. Es fácil ver que la varianza del parámetro sería dada por,

$$Var(\hat\tau) = \frac{n}{n_1} Var(Y_i(1)) + \frac{n}{n_0} Var(Y_i(0)) - Cov(Y_i(1),Y_i(0))$$

Por supuesto, esto es no identificado dentro de la muestra. Sin embargo, según la inferencia asintótica, dado un muestreo aleatorio verdadero de la población el término de covarianza será $0$ porque el control y el tratamiento se muestrean independientemente. Así, se obtiene la varianza asintótica que vemos arriba.

Para quien esté interesado en los resultados bajo supuestos más generales, recomiendo este artículo de Li et al. .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X