5 votos

Prueba de la vinculación de la OLS pendiente estimación estadística de prueba t de dos muestras (Xvar categórica)

Con respecto a un univariante de regresión OLS con una sola predictores categóricos (0,1).

Estoy luchando con la prueba de que $$t =\frac{b_1}{s(b_1)} $$

a partir de la base de la OLS estimador de la pendiente que es $$b_1= \frac{\sum (X_i - \bar{X})Y_i}{\sum(X_i - \bar{X})^2}. $$

Sé que el primer paso es mostrar que el denominador $\sum(X_i - \bar{X})^2$ es igual a

$$\frac{n_1n_0}{n} $$

donde $n_0$ $n_1$ son los grupos a y B, donde a $X_i = 0$ $1$ respectivamente.

Simplemente no puedo llegar allí, y sé que mi parcial de la suma de álgebra es insuficiente.

Me siento cómodo que $\sum(X_i - \bar{x})^2 = \sum(X_A - \bar{x})^2 + \sum(X_B - \bar{x})^2$ y, a continuación, la expansión de cada uno de estos a la forma$\sum X_i^2 - n\bar{x} ^2$, pero no puede conseguir más allá de esto:

$$\sum_{i=1}^{n_0} X_i^2 - n_0\bar{x} ^2 + \sum_{i=1}^{n_1} X_i^2 - n_1\bar{x} ^2.$$

Creo que el siguiente paso se basa en el hecho de que para el grupo cero $\sum X_i^2 = 0$ y para el grupo 1 $\sum X_i^2 = 1$.

Algún consejo sobre lo que me falta para avanzar aquí? O si alguien puede que me señale una completa prueba yo estaría muy agradecido.

2voto

jldugger Puntos 7490

Esto se hace fácil cuando usted volver a parametrizar el problema.

En lugar de usar un pendiente y la intersección, observe que cuando hay sólo dos valores distintos de la $x_i$ puede describir el ajuste por dar a su valor de $\eta_0$ $x=0$ y su valor de $\eta_1$$x=1$.

Figure

Este ejemplo muestra los datos como puntos rojos, el OLS ajuste como una línea discontinua, y un resumen de los dos grupos con boxplots. Grupo $A$ está a la izquierda y el grupo $B$ a la derecha. La pendiente de la línea es, precisamente, la cantidad necesaria para ir de la media del grupo $A$, $\eta_0$ cerca de $10$, para la media de grupo$B$, $\eta_1$ cerca de $13$.

Mínimos cuadrados requiere elegir los valores de estos parámetros que minimizan la suma de cuadrados de los residuales. Puesto que el valor de $\eta_0$ afecta a los residuos sólo para el grupo $A$ (donde $x_i=0$) y $\eta_1$ afecta a los residuos sólo para el grupo $B$ (donde $x_i=1$), cada uno será estimado como la media de su grupo asociado. Debido a que estos medios también pasar a ser el Máximo de estimaciones de Probabilidad (así como las estimaciones OLS), el ML estimación de la pendiente (que es también su estimación OLS) debe ser

$$b_1 = \frac{\hat\eta_1 - \hat\eta_0}{1-0} = \hat\eta_1 -\hat\eta_0,$$

cual es la diferencia en las medias de los grupos. Los MODELOS de estimación de la varianza (que difiere de la estimación ML, por lo que no podemos explotar ML en este momento) es la suma de los cuadrados de los residuos dividido por los grados de libertad, que es $n-2$. Debería ser igualmente obvio que este es precisamente el conjunto de varianza para el two-sample t-test. En consecuencia, $b_1/se(b_1)$ es exactamente el mismo, y se calcula exactamente de la misma manera-como la t de Student estadística.

2voto

Henry B Puntos 61

Gracias a todos por ayudarme hacia fuera. Por supuesto lo primero que necesitaba hacer era expreso $\bar{x}$ en el ns. Mi solución final está por debajo de:

$$\sum_{i=1}^{n}(Xi - \bar{X})^2 = \sum{i=1}^{(n_0 + n_1)} (Xi - \bar{X}) ^2 = \sum{i=1}^{(n_0)} (Xi - \bar{X}) ^2 + \sum{i=(n_0 + 1)}^{n} (X_i - \bar{X}) ^2 $$

$$ = \sum_{i=1}^{(n_0)} (0 - \frac{n_1}{n_0 + n1}) ^2 + \sum{i=(n_0 + 1)}^{n} (1 - \frac{n_1}{n_0 + n_1}) ^2 $$

$$ = \sum_{i=1}^{(n_0)} ( - \frac{n_1}{n_0 + n_1}) ^2 + n_1 (1 - \frac{n_1}{n_0 + n_1}) ^2 $$

$$ = n_0( - \frac{n_1}{n_0 + n_1}) ^2 + n_1 (1 - \frac{n_1}{n_0 + n_1}) ^2 $$

$$ = ( - \frac{n_0n_1}{n_0 + n_1}) ^2 + n_1 (1^2 - \frac{2n_1}{n_0 + n_1} + \frac{n_1^2}{(n_0 + n_1)^2} ) $$

$$ = \frac{n_0n_1^2}{(n_0 + n_1)^2} + \frac{n_1(n_0+n_1)^2}{(n_0 + n_1)^2} - \frac{2n_1^2 (n_0 + n_1)}{(n_0 + n_1)^2} + \frac{n_1^3}{(n_0 + n_1)^2} $$

$$ = \frac{n_0n_1^2 + n_1(n_0^2 + 2n_0n_1 + n_1^2) - 2n_1^2n_0 - 2n_1^3 + n_1^3}{n^2} $$

$$ = \frac{n_0n_1^2 + n_0^2n_1}{n^2} $$

$$ = \frac{n_0n_1(n_1 + n_0)}{n^2} $$

$$ = \frac{n_0n_1n}{n^2} $$

$$ = \frac{n_0n_1}{n}$$

0voto

Deep North Puntos 1260

Si lo que desea es mostrar que $\frac{b_1}{s(b_1)}$ $t$ distribución

Supongamos que el modelo de regresión lineal es $ Y=Xb+\epsilon $ e su $\epsilon$ $N(0,\sigma^2)$ distribución. Por lo tanto, $Y$ también tiene un $N(0,\sigma^2)$ distribución.

Y resolver la ecuación lineal mediante la notación matricial:

Podemos mostrar que $b=(X'X)^{-1}X'Y$

Y apenas se nota que $(X'X)^{-1}X'$ es un escalar de vectores, por lo $b$ tiene una distribución normal con $E(b)=0$ y la varianza es $(X'X)^{-1}X'\sigma^2((X'X)^{-1}X')'$

(Si sólo tiene un predictor y no considerar la posibilidad de interceptar, $(X'X)^{-1}X'$ es sólo un número.)

Usted estimación de la varianza de la $b$ por la varianza de la muestra $s^2$

Entonces por Estudiante teorema:

$\frac{b_1}{s(b1)}$ tiene una distribución t. A continuación, puede utilizar una muestra prueba t para probar si $b_1=0$ i.e $T=\frac{b_1-0}{s(b_1)}$.

Creo que la clave es mostrar a $b$ es normal distribuido a través de las $Y$.

Pero no sé cómo probar su método.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X