La forma cerrada de w en la regresión lineal se puede escribir como
$\hat{w}=(X^TX)^{-1}X^Ty$
¿Cómo podemos explicar intuitivamente el papel de $(X^TX)^{-1}$ en esta ecuación?
La forma cerrada de w en la regresión lineal se puede escribir como
$\hat{w}=(X^TX)^{-1}X^Ty$
¿Cómo podemos explicar intuitivamente el papel de $(X^TX)^{-1}$ en esta ecuación?
Un punto de vista geométrico puede ser como la n-dimensional de vectores $y$ $X\beta$ puntos en la n-dimensional espacio -$V$. Donde $X\hat\beta$ también está en el subespacio $W$ generado por los vectores $x_1, x_2, \cdots, x_m$.
Para este subespacio $W$ podemos imaginar dos tipos de coordenadas:
El $\boldsymbol{\alpha}$ no son las coordenadas en el ordinario sentido, pero no definen un punto en el subespacio $W$. Cada una de las $\alpha_i$ se refiere a la perpendicular proyecciones sobre los vectores $x_i$. Si hacemos uso de la unidad de vectores $x_i$ (por simplicidad), a continuación, "coordenadas" $\alpha_i$ para un vector $z$ puede ser expresado como:
$$\alpha_i = \mathbf{x_i^T} \mathbf{z}$$
y el conjunto de todas las coordenadas como:
$$\boldsymbol{\alpha} = \mathbf{X^T} \mathbf{z}$$
para $\mathbf{z} = \mathbf{X}\boldsymbol{\beta}$ la expresión de "coordenadas" $\alpha$ se convierte en una conversión de coordenadas $\beta$ a "coordenadas" $\alpha$
$$\boldsymbol{\alpha} = \mathbf{X^T} \mathbf{X}\boldsymbol{\beta}$$
Se podía ver a $(\mathbf{X^T} \mathbf{X})_{ij}$ como expresar cuánto de cada $x_i$ proyecta en el otro $x_j$
A continuación, la interpretación geométrica de la $(\mathbf{X^T} \mathbf{X})^{-1}$ puede ser visto como el mapa de vector proyección de "coordenadas" $\boldsymbol{\alpha}$ a coordenadas lineales $\boldsymbol{\beta}$.
$$\boldsymbol{\beta} = (\mathbf{X^T} \mathbf{X})^{-1}\boldsymbol{\alpha}$$
La expresión $\mathbf{X^Ty}$ da la proyección de "coordenadas" de $\mathbf{y}$ $(\mathbf{X^T} \mathbf{X})^{-1}$ convierte en $\boldsymbol{\beta}$.
Nota: la proyección de "coordenadas" de $\mathbf{y}$ son de la misma como la proyección de "coordenadas" de $\mathbf{\hat{y}}$ desde $(\mathbf{y-\hat{y}}) \perp \mathbf{X}$.
Asumiendo que usted está familiarizado con la regresión lineal simple: $$y_i=\alpha+\beta x_i+\varepsilon_i$ $ y su solución: $$\beta=\frac{\mathrm{cov}[x_i,y_i]}{\mathrm{var}[x_i]}$ $
Es fácil ver cómo $X'y$ corresponde al numerador arriba y $X'X$ asigna al denominador. Ya que estamos tratando con matrices el orden importa. $X'X$ es KxK matriz y $X'y$ es vector de Kx1. Por lo tanto, el orden es: $(X'X)^{-1}X'y$
He encontrado estos puestos especialmente útil:
Cómo obtener el estimador de mínimos cuadrados para la regresión lineal múltiple?
http://www.math.miami.edu/~armstrong/210sp13/HW7notes.pdf
Si $X$ $n \times p$ de la matriz, a continuación, la matriz de $X(X^TX)^{-1}X^T$ define una proyección sobre el espacio columna de a $X$. Intuitivamente, tiene una sobredeterminada sistema de ecuaciones, pero aún desea utilizar para definir un lineal mapa de $\mathbb{R}^p \rightarrow \mathbb{R}$ mapa de filas $x_i$ $X$ a algo cercano a los valores de $y_i$, $i\in \{1,\dots,n\}$. Así que nos conformamos con el envío de $X$ a la cosa más cercana a $y$ que nos puede ser expresado como una combinación lineal de sus características (las columnas de a $X$).
En cuanto a la interpretación de $(X^TX)^{-1}$, no tengo una increíble respuesta todavía. Sé que puedes pensar de $(X^TX)$ siendo básicamente la matriz de covarianza del conjunto de datos.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.