Dejemos que $r$ sea la correlación muestral de dos variables aleatorias $X,Y$ basado en una muestra aleatoria $(X_1, Y_1), (X_2, Y_2), \dots (X_n, Y_n)$ . Según Wikipedia, bajo la hipótesis nula de correlación cero, el estadístico de prueba $t=r \sqrt{\frac{n-2}{1-r ^2}}$ sigue aproximadamente una distribución t con $n-2$ grados de libertad cuando el número de observaciones $n$ es lo suficientemente grande. ¿Existe una manera fácil de probar esto? Hasta ahora, he intentado reescribir la fórmula de $r$ de forma que pueda aplicar el Teorema Central del Límite, pero no he podido sacar nada en claro.
Respuestas
¿Demasiados anuncios?El resultado original establece que si \begin{align*} \begin{pmatrix} X_i \\ Y_i \end{pmatrix} N\año(\año)\año(\año)\año(\año)\año, \begin{pmatrix} \sigma^2_x & \rho \sigma_x \sigma_y \\ \rho \sigma_x \sigma_y & \sigma^2_y \end{pmatrix} \(derecha) |align*} y definiendo $r = \frac{\sum_{i=1}^{n}(X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \overline{X})^2\sum_{i=1}^{n}(Y_i - \overline{Y})^2}}$ tenemos que $T =(n-2)\frac{r}{\sqrt{1-r^2}}$ tiene una exactitud $t_{n-2}$ distribución (ni siquiera aproximadamente). Para las distribuciones no normales $(X_i, Y_i)$ No tenemos ni idea de lo cerca o lejos que estaría de un $t$ distribución, sino por un argumento CLT, sería aproximadamente normal, lo que también sería aproximadamente $t$ -para algunos grados de libertad suficientemente grandes.
Definición de $S_{XY} = \sum_{i=1}^{n}X_iY_i$ y de forma similar para $S_{XX}, S_{YY}$ y definir $S_{YY}^\perp = S_{YY}- \frac{S_{YX}S_{XY}}{S_{XX}}$ . Un lema que necesitamos es
$S_{YX} \perp S_{YY}^\perp | S_{XX}$
La prueba es estándar, con un montón de manipulaciones de la distribución normal y propiedades de las matrices de proyección. Utilizando este hecho, escribimos \begin{align*} r = \frac{\mathbf{X}^\intercal \mathbf{H} \mathbf{Y}}{\sqrt{\mathbf{X}^\intercal \mathbf{H}\mathbf{X}\mathbf{Y}^\intercal\mathbf{H}\mathbf{Y}}{}} \end{align*} donde $\mathbf{H} = \mathbf{I}_{n\times n} - \frac{1}{n}\mathbf{1}\mathbf{1}^\intercal$ . Dejar $\Gamma$ sea la raíz cuadrada de $\mathbf{H}$ (es decir, $\Gamma^\intercal \Gamma =\mathbf{H}$ ) y $\mathbf{W} = \Gamma\mathbf{X}$ y $\mathbf{Z} = \Gamma \mathbf{Y}$ tenemos \begin{align*} r = \frac{\mathbf{W}^\intercal\mathbf{Z}}{\sqrt{\mathbf{W}^\intercal\mathbf{W}\mathbf{Z}^\intercal\mathbf{Z}}} \end{align*} y así \begin{align*} T^2 = (n-2)^2 \frac{r^2}{1-r^2} = (n-2)^2 \frac{\mathbf{Z}^\intercal \mathbf{W}\mathbf{W}^\intercal\mathbf{Z}}{\mathbf{W}^\intercal\mathbf{W}\mathbf{Z}^\intercal\mathbf{Z} - \mathbf{Z}^\intercal \mathbf{W}\mathbf{W}^\intercal\mathbf{Z}} = (n-2)^2 \frac{S^2_{WZ}}{S_{WW}S^\perp_{ZZ}} \end{align*} Así que ahora sabemos que
- $S_{WZ} \perp S_{ZZ}^\perp | S_{WW}$
- $S_{ZZ}^\perp|S_{WW} \sim \chi^2_{n-2}$
- $S_{WZ}|S_{WW} \sim N(0, S_{WW})$
Y así terminamos con \begin{align*} T^2|S_{WW} \sim (n-2)^2 \frac{S_{WW} N(0, 1)^2}{S_{WW} \chi^2_{n-2}} = t^2_{n-2} \end{align*} que es independiente de $S_{WW}$ . Por lo tanto, $T \sim t_{n-2}/\sqrt{n-2}$
En Wackerly et al. esto se da en realidad como un problema 11.55:
Comprobación de la hipótesis nula $H_0:\beta_1 = 0$ la estadística
$$T = \frac{\hat \beta_1 - 0}{\frac{S}{\sqrt{S_{xx}}}}$$ posee un $t$ distribución con $n-2$ grados de libertad si la hipótesis nula es verdadera. Demuestre que la ecuación de T también puede escribirse como $$T = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}}$$
Por lo tanto, hay que partir de la primera ecuación y convertirla en la segunda.