26 votos

Explicación intuitiva del término $(X^TX)^{-1}$ en la varianza del estimador menos cuadrado

Si $X$ fila completa, existe el inverso del $X^TX$ y obtenemos la estimación de mínimos cuadrados: $$\hat\beta = (X^TX)^{-1}XY$ $ y $$\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1}$ $

¿Cómo podemos explicar intuitivamente $(X^TX)^{-1}$ en la fórmula de varianza? La técnica de derivación está clara para mí.

19voto

Jeff Bauer Puntos 236

Considere la posibilidad de una regresión simple, sin un término constante, y donde el único regresor se centra en su promedio de la muestra. A continuación, $X'X$ ($n$ veces) su varianza de la muestra, y $(X'X)^{-1}$ su recirpocal. Por lo que el mayor de la varianza = variabilidad en el regresor, menor es la varianza del estimador del coeficiente de: la más variabilidad que tenemos en la variable explicativa, con más precisión podemos estimar que el coeficiente de la incógnita.

Por qué? Debido a que la mayor variación de un regresor es, más la información que contiene. Cuando los regresores son muchos, esto se generaliza a la inversa de su varianza-covarianza de la matriz, que tiene también en cuenta la co-variabilidad de los regresores. En el caso extremo en que $X'X$ es diagonal, entonces la precisión para cada coeficiente estimado sólo depende de la variación y variabilidad de los asociados regresor (dado que la varianza del término de error).

8voto

mark Puntos 232

Una forma simple de ver $\sigma^2 \left(\mathbf{X}^{T} \mathbf{X} \right)^{-1}$ es como la matriz (multivariante) analógica de $\frac{\sigma^2}{\sum_{i=1}^n \left(X_i-\bar{X}\right)^2}$, que es la varianza del coeficiente de la pendiente en simple regresión por MCO. Uno puede incluso conseguir $\frac{\sigma^2}{\sum_{i=1}^n X_i^2}$ para que la varianza por ommitting el intercepto en el modelo, es decir, mediante la realización de la regresión a través del origen.

Desde cualquiera de estas fórmulas se puede observar que la mayor variabilidad de la variable de predicción en general conducen a la estimación más precisa de su coeficiente. Esta es la idea a menudo explotados en el diseño de experimentos, donde por la elección de los valores de la (no aleatoria) de los predictores, uno trata de hacer que el determinante de a $\left(\mathbf{X}^{T} \mathbf{X} \right)$ tan grande como sea posible, el determinante es una medida de la variabilidad.

4voto

victor Puntos 1

¿Es transformación lineal de la variable aleatoria gaussiana ayuda? Usando la regla eso si, $x \sim \mathcal{N}(\mu,\Sigma)$, entonces el $Ax + b ~ \sim \mathcal{N}(A\mu + b,A^T\Sigma A)$.

Asumiendo, que $Y = X\beta + \epsilon$ es el modelo subyacente y $\epsilon \sim \mathcal{N}(0, \sigma^2)$.

$$ \therefore Y \sim \mathcal{N}(X\beta,\sigma^2) \\ X ^ TY \sim \mathcal{N}(X^TX\beta, X\sigma^2 X^T) \\ (X ^ TX) ^ {-1} X ^ TY \sim \mathcal{N} [\beta,(X^TX) ^ {-1} \sigma^2] $$

Así $(X^TX)^{-1}X^T$ es simplemente una matriz escalamiento complicada que transforma la distribución de los $Y$.

Esperanza que fue útil.

2voto

Factor Mystic Puntos 12465

Esto se basa en @Alecos Papadopuolos respuesta.

Recordemos que el resultado de una regresión de mínimos cuadrados no depende de las unidades de medida de las variables. Supongamos que el X-variable es una medida de longitud, en pulgadas. Luego reescalado X, por ejemplo, al multiplicar por 2.54 para cambiar la unidad a centímetros, no afectan materialmente las cosas. Si usted vuelva a colocar el modelo, la nueva regresión estimación de la antigua estimación dividido por 2.54.

El $X'X$ matriz es la varianza de X, y por lo tanto refleja la escala de medición de X. Si cambia la escala, tiene que reflejar esto en su estimación de $\beta$, y esto se hace multiplicando por la inversa de a $X'X$.

1voto

Richard Gayle Puntos 41

Dicen que tenemos $n$ observaciones (o tamaño de la muestra) y $p$ parámetros.

La matriz de covarianza $\operatorname{Var}(\hat{\beta})$ de la estimación de los parámetros de $\hat{\beta}_1,\hat{\beta}_2$ etc. es una representación de la precisión de los parámetros estimados.

Si en un mundo ideal, los datos podrían ser perfectamente descrito por el modelo, y luego el ruido va a ser $\sigma^2= 0$. Ahora, las entradas de la diagonal de a $\operatorname{Var}(\hat{\beta})$ corresponden a $\operatorname{Var}(\hat{\beta_1}),\operatorname{Var}(\hat{\beta_2})$ etc. La derivada de la fórmula para la varianza está de acuerdo con la intuición de que si el ruido es menor, las estimaciones serán más precisos.

Además, como el número de mediciones se hace más grande, la varianza de los parámetros estimados disminuirá. Entonces, en general, el valor absoluto de las entradas de $X^TX$ va a ser mayor, ya que el número de columnas de a $X^T$ $n$ y el número de filas de a$X$$n$, y cada entrada de $X^TX$ es una suma de $n$ producto pares. El valor absoluto de las entradas de la inversa de la $(X^TX)^{-1}$ será menor.

Por lo tanto, incluso si hay un montón de ruido, todavía podemos llegar a obtener buenas estimaciones $\hat{\beta_i}$ de los parámetros si se aumenta el tamaño de la muestra $n$.

Espero que esto ayude.

Referencia: Sección 7.3 de mínimos cuadrados: Cosentino, Carlo, y Declan Bates. El control de retroalimentación en la biología de sistemas. Crc Press, 2011.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X