5 votos

DF para la regresión de las SS en la regresión lineal múltiple cuando se conoce sigma

En el entorno típico de regresión lineal múltiple, tenemos que $Y = \mathbf{X}\beta + \epsilon$ donde $\epsilon$ es iid $\mathcal{N}(0, \sigma^2I) $ donde $\sigma^2$ es desconocido. En este caso, la regresión suma de los cuadrados (RSS) ha $\text{df}= p - 1$ ($\text{df}$ = grados de libertad) donde $p$ es el número de parámetros en el modelo. Tengo dos preguntas sobre esta base.

  1. ¿Por qué es el $\text{df}= p - 1$, me parece que todos los $p$ de la los parámetros son libres de variar.
  2. Si $\sigma^2$ es conocido, es la $\text{df}= p - 2$?

Editar: Estoy hablando de la suma de cuadrados debido a la regresión, el cual es definido como: $\sum (\hat{y}_i-\bar{y})^2$ esto ha grados de libertad p-1, donde p es el número de parámetros en el modelo. SST, el cual es definido como: $\sum (y_i-\bar{y})^2$ tiene grados de libertad (n-1) y ESS (suma de cuadrados debida al error/residuos) se define como el $\sum (\hat{y}_i-y_i)^2$ y tiene grados de libertad p-n.

SST = SSE + SSR y $df_{SST} = df_{SSR}+df_{SSE}$.

6voto

Sean Hanley Puntos 2428

Hay una confusión muy común en su comprensión de los grados de libertad de la situación típica. Los grados de libertad de la regresión múltiple es a menudo escrita $\text{df}=N-p-1$. Creo que esto es donde usted está consiguiendo la idea de que el df por la regresión es $p-1$. Yo normalmente prefiero escribir esto como $\text{df}=N-(p+1)$ por esta razón. Tenga en cuenta que $-1*(p+1)=(-p-1)$, por lo tanto: $N-(p+1)=N-p-1$. Esta es una pequeña pieza de álgebra que creo que es un poco menos intuitivo para la gente.

Vamos a trabajar a pesar de que los grados de libertad y a ver si podemos hacer más sentido:

  • Si usted simplemente tiene $N$ de los datos, y no hacen nada con ellos, entonces supongo que se podría decir que ha $N~\text{df}$.
  • Si quieres calcular la media de los datos, entonces usted ha utilizado $1~\text{df}$, por lo que ahora sólo has $N-1~\text{df}$ a la izquierda. El estándar de la forma de explicar esto es que todos, pero uno de los datos podría ser cualquier número real, pero con el fin de acabar con la media que he encontrado, el último dato se ve obligado a ser algo de particular valor, no sería "gratis para variar'.
  • Así que, ¿y si quisiera un ajuste simple (es decir, 1 $X$ variable) modelo de regresión? Entonces usted es la estimación de la media de $Y$, es decir,$\bar y$, y la pendiente de la relación entre el $X$ y $Y$, $\hat\beta_1$. (La mayoría de la gente suele pensar en esto como la estimación de la pendiente, $\hat\beta_1$, y la intercepción, $\hat\beta_0$, pero tenga en cuenta que una vez que usted ha $(\bar x,~\bar y)$$\hat\beta_1$, la intersección cae fuera de este: $\hat\beta_0=\hat\beta_1\bar x-\bar y$; y recuerde que $\bar x$ es libre / no cueste grados de libertad, debido a que su $X$ variable se supone que es un conjunto de conocidos constantes.)
  • Y qué si quería encajar un múltiple el modelo de regresión con $p$ $X$ las variables? A continuación, tendría que ser la estimación de la media de $Y$ $p$ pendientes, es decir, $\bar y$ $\hat\beta_j$ (o $p$ pistas, $\hat\beta_j$, y la intersección, $\hat\beta_0$, si que es más intuitivo para usted). Por lo tanto, usted tendría $N-(p+1)~\text{df}$ restante.
  • Es importante destacar, reconocer que en ninguna parte en esta discusión hemos discutido la estimación de $\hat\sigma^2_\varepsilon$ sin embargo, tampoco es que parte del cálculo de la $\text{df}$ para nuestro modelo.

La varianza residual tiene que ver con cómo nos formulario de intervalos. Por ejemplo, si usted quería formar un intervalo de confianza alrededor de una pendiente, $\hat\beta_j$, para probar si era igual a algún valor nulo (típicamente $0$). Si conoce la varianza residual a priori, y los residuos son normales (o, en su muestra es lo suficientemente grande para que el Teorema del Límite Central para cubrir para usted), entonces usted puede utilizar la distribución normal para formar este CI / a prueba su pendiente. Por otro lado, si usted estima que su varianza residual a partir de los datos, entonces se puede utilizar el $t$ distribución por esto, con el modelo de la $\text{df}$.


(Respuesta a editar:)

No acabo de seguir el pensamiento detrás de su pregunta; puedo continuar sospecha que hay un malentendido en el juego. La tabla ANOVA para un modelo de regresión, por ejemplo, está construido como este:

\begin{array}{lllll} &\text{Source} &\text{SS} &\text{df} &\text{MS} &\text{F} \\ \hline &\text{Regression} &\sum(\hat y-\bar y)^2 &p &\frac{\text{SS}_{reg}}{\text{df}_{reg}} &\frac{\text{MS}_{reg}}{\text{MS}_{res}} \\ &\text{Residual} &\sum(y_i-\hat y)^2 &N-(p+1) &\frac{\text{SS}_{res}}{\text{df}_{res}} \\ &\text{Total} &\sum(y_i-\bar y)^2 &N-1 \end{array}

Para ser explícitos:

  • La suma de cuadrados debido a la regresión ha $p\text{ df}$, no $p-1$.
  • Conocimiento de $\sigma^2_\varepsilon$ (o la falta de ella) no está relacionado con el $\text{df}$.
  • Los parámetros no son libres para variar, los datos son.

0voto

Lucozade Puntos 299

Supongo que te refieres a por a su a $p$ el número de puntos de datos, la cual es usualmente denotado por $n$ (parámetros se refiere a algo distinto en las estadísticas y están aquí, que convencionalmente se denota por a $p$). Los datos de corrección de la relación entre el $n$ puntos y, por tanto, de fijar la SSR como un solo valor (condiciones de frontera). Por lo tanto, usted tiene $n-1$ grados de libertad. Si luego necesitas para estimar el $\sigma^2$ a partir de estas así, se pierde otro DoF, es decir, $n-1-1$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X