Supongamos que el modelo es $$ Y = b_0 + b_1X_1 + b_2X_2 + b_3D + b_4X_1D + e \\ e \sim\mathcal N(0, \sigma^2) $$ Dónde $D$ es una variable categórica. $$ E(Y|X_1, X_2, D=1) \sim\mathcal ?? \\ E(Y|X_1, X_2, D=0) \sim\mathcal ?? $$ Quiero la distribución de muestreo que incorpora la incertidumbre en la estimación de $b$ y también aprovechar en $X$ y supongo que tiene algo que ver con el número de observaciones del grupo. $D$ .
Respuestas
¿Demasiados anuncios?Sea $\left(a, b \right)$ denotan el vector columna $\left[\matrix{a & b}\right]^T$ .
Supongamos que existe un $k$ -vector adimensional de los valores "verdaderos" de los parámetros $b$ y que el "verdadero" proceso de generación de datos viene descrito por $y = xb + e$ para cualquier $k$ -vector bidimensional de filas $x$ donde $e \sim \mathcal{N}{\left( 0, \sigma^2 \right)}$ .
Supongamos que utilizamos OLS para estimar los parámetros del modelo con $n$ puntos de datos "apilados" para formar $k \times n$ matriz $X = \left(\matrix{x^1, \dots, x^n }\right)$ . Denotemos las estimaciones de los parámetros correspondientes con $\hat{b}$ .
Si observamos algunos $x$ y denota $\widehat{\mathbb{E}{\left( y\ |\ z \right)}} = \hat{y}$ entonces $$ \mathbb{E}{\left( \hat{y} \right)} = x \cdot \hat{b}\\ \mathbb{V}\left( \hat{y} \right) = \sqrt{\sigma^2x^T(X^TX)^{-1}x} $$
Entonces para algunos $\alpha \in (0,1)$ el intervalo $$ \hat{y} \pm \left(F^t_{n-(k+1)}\right)^{-1}{\left(\frac{\alpha}{2}\right)}\sqrt{s^2x^T(X^TX)^{-1}x} $$
contiene el verdadero $\mathbb{E}{(y\ |\ z)}$ con probabilidad $1-a$ donde $\left(F^t_{n-(k+1)}\right)^{-1}$ es la FCD inversa de la $t$ distribución con $n-(k+1)$ grados de libertad.
Esto se expone, con una notación ligeramente diferente, en:
Mendenhall, William y Terry Sincich. (2012). Apéndice B: la mecánica del análisis de regresión múltiple. En Segundo curso de estadística: Análisis de regresión séptima edición (pp. 742-744). Prentice Hall.
En su caso $$ x = \left[\matrix{1 & x_1 & x_2 & d & x_1d}\right] \\ b = \left(b_0, b_1, b_2, b_3, b_4\right) \\ \hat{y} = \mathbb{E}{\left( \hat{b_0} + \hat{b_1}x_1 + \hat{b_2}x_2 + \hat{b_3}d + \hat{b_4}x_1d \right)} $$ pero todo eso sólo se conecta a la matemática anterior. Así que no, la interacción no hace una diferencia.
Suponiendo que la especificación sea correcta, $$E(Y|X_1, X_2, D=1) = b_0 + b_1X_1 + b_2X_2 + b_3 + b_4X_1 + E(e|X_1, X_2, D=1)$$
y bajo el supuesto de referencia de exogeneidad estricta de los regresores con respecto al término de error,
$$E(Y\mid X_1, X_2, D=1) = (b_0 + b_3) +(b_1+b_4)X_1 + b_2X_2 $$
o, de forma más compacta, estableciendo
$$\mathbf \gamma = (\gamma_0, \gamma_1, \gamma_2)',\;\; \gamma_0= b_0 + b_3,\;\;\gamma_1= b_1 + b_4,\;\;\gamma_2= b_2 $$
y
$$Z = (1, X_1, X_2)'$$
$$\Rightarrow E(Y\mid Z, D=1) = Z'\mathbf \gamma $$
y análogamente para el otro caso. Vista como una variable aleatoria, esta expectativa condicional es una combinación lineal de $X_1$ y $X_2$ por lo que para discutir su distribución, tenemos que conocer o hacer suposiciones sobre la distribución y la estructura de dependencia del $X$ -regresores, algo que en muchos casos, no se hace. Tenga en cuenta que $D$ no desempeña ningún papel, ya que se utiliza en el acondicionamiento fijo a un valor específico.
Supongamos ahora que queremos considerar otra variable aleatoria, la estimada por el método de los momentos (aquí, OLS ) expectativa condicional basada en una muestra de tamaño $n$ que se trata como fijo. Aquí el $D$ ya que se utilizará para la estimación de los parámetros del vector $\beta$ . Denotemos $W= (1, X_1, X_2, D, X_1D)'$ y $\mathbf W_n$ la matriz regresora muestral correspondiente.
Si estimamos el modelo original, obtenemos $\hat \beta$ de lo que se obtiene $\hat \gamma$ . Entonces
$$\hat E_n(Y\mid W, D=1, \mathbf W_n) = W'|_{D=1}\hat \beta = Z'\gamma +W'|_{D=1}\left(\mathbf W_n'\mathbf W_n\right)^{-1}\mathbf W_n'\mathbf e_n$$
Compactación, $$\left(\mathbf W_n'\mathbf W_n\right)^{-1}\mathbf W_n'\mathbf e_n = \mathbf u_n $$
Así que podemos escribir
$$\hat E_n(Y\mid W, D=1, \mathbf W_n) = E(Y\mid Z, D=1)+W'|_{D=1}\mathbf u_n$$
que parece que puede tener una distribución aún más complicada, ya que aquí también tenemos productos de variables aleatorias.
No me parece una pregunta básica. ¿Pero es esto lo que el OP tenía en mente? En cualquier caso, el tratamiento aquí es coherente con la notación utilizada en la pregunta.
Algo confuso es determinar qué es aleatorio en la expresión $E(Y|X)$ pero asumiendo que lo que quieres es $$X\hat \beta,$$ entonces $\hat \beta$ es la única parte aleatoria. Ahora, por supuesto, si estimamos $\hat \beta$ sobre datos $y = Z \beta + \epsilon$ , $\epsilon \sim N(0, \sigma^2)$ entonces $$ \begin{align*} \hat \beta & = (Z^T Z)^{-1}Z^T y\\ & = (Z^T Z)^{-1}Z^T (Z \beta + \epsilon) \\ & = \beta + (Z^T Z)^{-1}Z^T \epsilon \end{align*} $$ por lo que si la varianza $\sigma^2$ se conocieran, tendrías simplemente que $$ \begin{align*} X \hat \beta & = X\beta + X (Z^T Z)^{-1}Z^T \epsilon\\ &= X \beta + v \end{align*} $$ donde $v \sim N(0, \Lambda)$ para $\Lambda = \sigma^2 X^T (Z^T Z)^{-T}(Z^T Z) (Z^T Z)^{-1} X = \sigma^2 X^T(Z^T Z)^{-1}X $ . Así que si conocieras la varianza $\sigma^2$ entonces la distribución del muestreo es Normal, con la media que se espera y una varianza que depende de cuánta información había en el diseño para el valor que interesa extrapolar.
Pero como no sabes $\sigma^2$ se utilizará el estimador consistente $\hat {s^2} = \frac{1}{n-p}\sum (y - Z \hat \beta)^2$ que sabemos que es escala chi-cuadrado con $n-p$ dof, e independiente de $\hat \beta$ . En este caso, $$ \frac{v}{\hat s^2} \sim \left(X^T(Z^T Z)^{-1}X \right) t_{n-p}, $$ donde $t_{n-p}$ es una distribución t con $n-p$ dof.
Así que finalmente, $$ \frac{\sigma^2}{\hat{s^2}} X \hat \beta \sim X \beta + \sigma^2 \left(X^T(Z^T Z)^{-1}X \right) t_{n-p} $$