31 votos

Comprensión de la prueba t para la regresión lineal

Estoy intentando averiguar cómo realizar una prueba de hipótesis sobre una regresión lineal (la hipótesis nula es que no hay correlación). Todas las guías y páginas sobre el tema que encuentro parecen utilizar una prueba t. Pero no entiendo qué significa realmente una prueba t para una regresión lineal. Una prueba t, a menos que tenga una comprensión o un modelo mental completamente erróneo, se utiliza para comparar dos poblaciones. Pero el regresor y el regresado no son muestras de poblaciones similares, y puede que ni siquiera sean de la misma unidad, así que no tiene sentido compararlos.

Entonces, al utilizar una prueba t en una regresión lineal, ¿qué es lo que estamos haciendo realmente?

77voto

Paulius Puntos 369

Probablemente esté pensando en las dos muestras $t$ porque a menudo es el primer lugar en el que el $t$ la distribución se produce. Pero realmente todo un $t$ significa que la distribución de referencia para la estadística de la prueba es una $t$ distribución. Si $Z \sim \mathcal N(0,1)$ y $S^2 \sim \chi^2_d$ avec $Z$ y $S^2$ independiente, entonces $$ \frac{Z}{\sqrt{S^2 / d}} \sim t_d $$ por definición. Escribo esto para enfatizar que la $t$ es sólo un nombre que se le dio a la distribución de esta proporción porque surge mucho, y cualquier cosa de esta forma tendrá un $t$ distribución. Para la prueba t de dos muestras, esta relación aparece porque bajo la nula la diferencia de medias es una gaussiana de media cero y la estimación de la varianza para gaussianas independientes es una $\chi^2$ (la independencia puede demostrarse mediante Teorema de Basu que utiliza el hecho de que la estimación de la varianza estándar en una muestra gaussiana es accesoria a la media de la población, mientras que la media de la muestra es completa y suficiente para esa misma cantidad).

Con la regresión lineal obtenemos básicamente lo mismo. En forma de vector, $\hat \beta \sim \mathcal N(\beta, \sigma^2 (X^T X)^{-1})$ . Sea $S^2_j = (X^T X)^{-1}_{jj}$ y asumir los predictores $X$ no son aleatorios. Si supiéramos $\sigma^2$ tendríamos $$ \frac{\hat \beta_j - 0}{\sigma S_j} \sim \mathcal N(0, 1) $$ bajo la nula $H_0 : \beta_j = 0$ por lo que realmente tendríamos una prueba Z. Pero una vez que estimamos $\sigma^2$ terminamos con un $\chi^2$ variable aleatoria que, bajo nuestros supuestos de normalidad, resulta ser independiente de nuestro estadístico $\hat \beta_j$ y entonces obtenemos un $t$ distribución.


Aquí están los detalles de eso: suponga $y \sim \mathcal N(X\beta, \sigma^2 I)$ . Dejar $H = X(X^TX)^{-1}X^T$ sea la matriz del sombrero tenemos $$ \|e\|^2 = \|(I-H)y\|^2 = y^T(I-H)y. $$ $H$ es idempotente por lo que tenemos el bonito resultado de que $$ y^T(I-H)y / \sigma^2 \sim \mathcal \chi_{n-p}^2(\delta) $$ con el parámetro de no centralidad $\delta = \beta^TX^T(I-H)X\beta = \beta^T(X^TX - X^T X)\beta = 0$ Así que, en realidad, se trata de un centro $\chi^2$ avec $n-p$ grados de libertad (es un caso especial de Teorema de Cochran ). Estoy usando $p$ para denotar el número de columnas de $X$ por lo que si una columna de $X$ da la intercepción entonces tendríamos $p-1$ predictores no interceptados. Algunos autores utilizan $p$ para ser el número de predictores no interceptados, por lo que a veces se puede ver algo como $n-p-1$ en los grados de libertad allí, pero es todo lo mismo.

El resultado de esto es que $E(e^Te / \sigma^2) = n-p$ Así que $\hat \sigma^2 := \frac{1}{n-p} e^T e$ funciona muy bien como estimador de $\sigma^2$ .

Esto significa que $$ \frac{\hat \beta_j}{\hat \sigma S_j}= \frac{\hat \beta_j}{S_j\sqrt{e^Te / (n-p)}} = \frac{\hat \beta_j}{\sigma S_j\sqrt{\frac{e^Te}{\sigma^2(n-p)}}} $$ es la relación entre una gaussiana estándar y un chi cuadrado dividida por sus grados de libertad. Para terminar, necesitamos demostrar la independencia y podemos utilizar el siguiente resultado:

Resultado: para $Z \sim \mathcal N_k(\mu, \Sigma)$ y matrices $A$ y $B$ en $\mathbb R^{l\times k}$ y $\mathbb R^{m\times k}$ respectivamente, $AZ$ y $BZ$ son independientes si y sólo si $A\Sigma B^T = 0$ (este es el ejercicio 58(b) del capítulo 1 de Estadísticas matemáticas de Jun Shao ).

Tenemos $\hat \beta = (X^TX)^{-1}X^T y$ y $e = (I-H)y$ donde $y \sim \mathcal N(X\beta, \sigma^2 I)$ . Esto significa que $$ (X^TX)^{-1}X^T \cdot \sigma^2 I \cdot (I-H)^T = \sigma^2 \left((X^TX)^{-1}X^T - (X^TX)^{-1}X^TX(X^TX)^{-1}X^T\right) = 0 $$ así que $\hat \beta \perp e$ y por lo tanto $\hat \beta \perp e^T e$ .

El resultado es que ahora sabemos $$ \frac{\hat \beta_j}{\hat \sigma S_j} \sim t_{n-p} $$ como se desea (bajo todos los supuestos anteriores).


Aquí está la prueba de ese resultado. Sea $C = {A \choose B}$ sea el $(l+m)\times k$ matriz formada por el apilamiento de $A$ encima de $B$ . Entonces $$ CZ = {AZ \choose BZ} \sim \mathcal N \left({A\mu \choose B\mu}, C\Sigma C^T \right) $$ donde $$ C\Sigma C^T = {A \choose B} \Sigma \left(\begin{array}{cc} A^T & B^T \end{array}\right) = \left(\begin{array}{cc}A\Sigma A^T & A\Sigma B^T \\ B\Sigma A^T & B\Sigma B^T\end{array}\right). $$ $CZ$ es una gaussiana multivariante y es un resultado bien conocido que dos componentes de una gaussiana multivariante son independientes si y sólo si no están correlacionadas, por lo que la condición $A\Sigma B^T = 0$ resulta ser exactamente equivalente a los componentes $AZ$ y $BZ$ en $CZ$ no están correlacionados.

$\square$

20voto

La respuesta de @Chaconne es genial. Pero aquí hay una versión mucho más corta y no matemática.

Como el objetivo es calcular un valor P, primero hay que definir una hipótesis nula. Casi siempre, esto es que la pendiente es realmente horizontal, por lo que el valor numérico de la pendiente (beta) es 0,0.

El ajuste de la pendiente a partir de sus datos no es 0,0. ¿Esa discrepancia se debe al azar o a que la hipótesis nula es errónea? Nunca se puede responder a eso con seguridad, pero el valor P es una forma de obtener una especie de respuesta.

El programa de regresión informa del error estándar de la pendiente. Calcule la proporción t como la pendiente dividida por su error estándar. En realidad, es (la pendiente menos la pendiente de la hipótesis nula) dividida por el error estándar, pero la pendiente de la hipótesis nula es casi siempre cero.

Ahora tienes una relación t. El número de grados de libertad (df) es igual al número de puntos de datos menos el número de parámetros ajustados por la regresión (dos para la regresión lineal).

Con esos valores (t y df) se puede determinar el valor P con una calculadora o tabla online.

Se trata esencialmente de una prueba t de una muestra, que compara un valor calculado observado (la pendiente) con un valor hipotético (la hipótesis nula).

0voto

johnny09 Puntos 312

El coeficiente estima el efecto del IV correspondiente sobre el VD; el error estándar de ese coeficiente estima el error medio de las estimaciones de ese coeficiente; la prueba t indica cuántas veces mayor es el propio coeficiente que el error medio de los valores que estima.

Si y'=30x, pero los valores observados también varían por término medio en 30x con respecto a los valores predichos, entonces el coeficiente sólo sería coherente con diferencias totalmente aleatorias entre los valores predichos y los observados. La prueba t nos dice cuántas veces mayor es el coeficiente a partir de ese error.

Esto es coherente con otras aplicaciones de una prueba t; una prueba t de dos muestras de datos indica cuántas veces mayor es la diferencia entre las medias de los grupos de muestras que la variación dentro de las muestras.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X