27 votos

Cómo calcular el valor p para la regresión lineal multivariante

Los paquetes de software que calculan regresiones a veces también devuelven valores p. Quiero saber cómo calcular este valor p a mano.

Esto es lo que creo entender:

Quiero calcular la probabilidad de que ${\bf y} = {\bf X\beta}$ donde $\bf y$ es un vector columna de $m$ valores de las variables dependientes, $\bf X$ es un $m\times n$ matriz en la que cada fila es un conjunto de observaciones de $n$ variables con errores distribuidos normalmente, y $\bf\beta$ es un vector columna de longitud $m$ .

En particular, para calcular el valor p asumo que los coeficientes de regresión $\bf\beta$ son cero. Así que quiero calcular la probabilidad de que ${\bf y} = \bf \bf\epsilon$ donde el $\bf\epsilon$ es un vector de errores distribuidos normalmente con media = 0? ¿Es correcto?

Si es así, no estoy seguro de cuál es el siguiente paso para calcular el valor p. (Entre otras cosas, ¿de dónde saco los parámetros de varianza para las distribuciones normales?).

(Siéntase libre de indicarme una respuesta a una pregunta existente, obviamente. Todavía no he encontrado una pregunta existente con una respuesta a la mía, pero no me sorprendería que existiera).

23voto

user164061 Puntos 281

Prueba t

Con una prueba t se estandarizan los parámetros medidos dividiéndolos por la varianza. Si la varianza es una estimación, este valor estandarizado se distribuirá según la distribución t (de lo contrario, si se conoce la varianza de la distribución de los errores, se tiene una distribución z).

Digamos que tu medida es:

$$y_{obs} = X\beta + \epsilon \quad \text{with} \quad \epsilon \sim N(0,\sigma^2*I)$$

Entonces su estimación $\hat\beta$ es:

$$\begin{array}\\ \hat\beta & = & (X^TX)^{-1}X^T y_{obs} \\ & = &(X^TX)^{-1}X^T (X\beta + \epsilon) \\ & = & \beta + (X^TX)^{-1}X^T \epsilon \end{array}$$

Así que su estimación $\hat\beta$ será el verdadero vector $\beta$ y un término basado en el error $\epsilon$ . Si $\epsilon \sim N(0,\sigma^2I)$ entonces

$$\hat\beta \sim N(\beta,(X^tX)^{-1}\sigma^2)$$

Nota: No puedo hacer el cambio de la $(X^TX)^{-1}X$ término en $(X^TX)^{-1}$ intuitivo, pero para derivarlo habría que expresar $\text{Var}(\hat\beta) = \text{Var}((X^TX)^{-1}X^T\epsilon) = (X^TX)^{-1}X^T \, \sigma^2I \, ((X^TX)^{-1}X^T)^T$ y eliminar algunos de esos términos

Lo desconocido $\sigma$ se estimará a partir de la suma de los cuadrados de los residuos multiplicada por la relación entre los grados de libertad de los términos residuales y el número total de mediciones/términos de error (de forma similar a la corrección de Bessel en la varianza muestral corregida) .

Entonces, a partir de este punto se puede recoger la expresión de los valores p para cada $H_j: \beta_j = 0$ como las pruebas t estándar (aunque debido a la posible correlación en la distribución de las diferentes $\beta_j$ (se podrían realizar pruebas más potentes que las pruebas t individuales).

Prueba F

Con la prueba F se utiliza la distribución F, que describe el cociente de dos variables con distribución chi-cuadrado. Esto funciona como una prueba de hipótesis cuando comparamos la varianza de un modelo y los residuos (ambos se distribuyen chi-cuadrado cuando suponemos que un determinado parámetro del modelo ). $\beta_j$ no tiene ningún efecto)

El término residual de un modelo tiene $n-p$ grados de libertad, con $n$ el número de observaciones/errores y $p$ el número de parámetros que se utilizan para ajustar el modelo. Se podría ver intuitivamente como los residuos que se obtienen de los errores por proyectando los errores en el espacio de las columnas perpendiculares a las columnas del modelo $X$ (este espacio tiene dimensión $n-p$ ). Una proyección de una variable distribuida normal multivariante es en sí misma una variable distribuida normal multivariante, pero con una dimensión menor. Por lo tanto, aunque puede tener $n$ residuales. En realidad son $n-p$ residuales incrustados en un $n$ espacio dimensional.


Ahora, cuando se considera añadir una variable extra al modelo 1, para obtener el modelo 2, entonces se podría analizar esto considerando que los errores se proyectan en un espacio más pequeño. Si el modelo 2 no tiene ningún efecto (es decir, las columnas añadidas para hacer el modelo $X_2$ de $X_1$ son simplemente aleatorios) entonces se podría plantear la hipótesis nula de que la suma reducida de los residuos al cuadrado para el modelo 1 y el modelo 2 son iguales. Esto es lo que se comprueba en una prueba F (utilizando el cociente de esos residuos reducidos) para obtener un valor p del efecto de cambiar el modelo 1 por el 2 (y se podría hacer esto para cada variable $\beta_i$ donde la forma de hacerlo cambia un poco ver por ejemplo ¿Cómo interpretar ANOVA y MANOVA de tipo I, tipo II y tipo III? ).

Así que se divide la suma de los residuos al cuadrado de un modelo simple $RSS_{simple}$ en dos proyecciones (que representan variables independientes si la hipótesis nula es cierta). Una parte es una proyección sobre el espacio (más pequeño) de un modelo completo $RSS_{full}$ y la otra parte es la proyección sobre el espacio abarcado por el modelo (que puede expresarse mediante la diferencia) $RSS_{simple}-RSS_{full}$ . Y la proporción utilizada en la prueba F es

$$F = \frac{\left(\frac{RSS_{simple}-RSS_{full}}{p_{full}-p_{simple}}\right)}{\left(\frac{RSS_{full}}{n-p_{full}}\right)}$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X