5 votos

En la regresión lineal, ¿hay algún significado para el término $X^Ty$ ?

Hace poco, me preguntaba sobre esta cuestión.

En un problema de regresión lineal estándar ( $y=X\beta$ y resolvemos para $\beta$ ), la solución es $\beta = X^{-1}y$ cuando $X$ es cuadrado e invertible, y $(X^T X)^{-1}X^T y$ cuando $X$ tiene rango de columna completo.

Sin embargo, me pregunto si hay alguna otra explicación para este término, por ejemplo, verlo como la covarianza inversa $(X^TX)^{-1}$ multiplicado por $X^Ty$ . Entonces, me pregunto cuál es el significado para $X^Ty$ que lo convierte en una solución?

Parece que $X^Ty$ es sólo un vector de productos punto de cada vector de características y etiquetas ( $y$ ). No sé si hay una explicación mejor.

1 votos

Es de suponer, punto productos en lugar de doc ?

5voto

HyLian Puntos 2058

Intentaré explicarlo desde el punto de vista del álgebra lineal, pero no estoy seguro de que sea lo que necesitas.

En primer lugar, al resolver la ecuación en el caso del sistema inconsistente, sabemos que $\hat y$ es la proyección ortogonal de $y$ en el espacio de columnas de $X$ . En otras palabras, $\hat y$ puede estimarse mediante $X \hat \beta$ . En segundo lugar, sabemos que cuando restamos $y - \hat y$ creamos la componente ortogonal, que es ortogonal al espacio de columnas de $X$ .

Además, sabemos que la ortogonalidad significa que si algún vector $a$ que es ortogonal al vector $b$ se multiplica por $b$ , dará $0$ como resultado. Por último, para tener el espacio de columnas y no el de filas de la matriz $X$ necesitamos tomar la transposición de la misma.

Así, tenemos una ecuación $X^T(y - X\hat \beta) = 0$

Al abrir los paréntesis y poner diferentes partes de la ecuación en los diferentes lados, recibimos la misma ecuación de la que has hablado.

$\hat \beta = (X^TX)^{-1}X^Ty$

2voto

Rob Allen Puntos 486

La gente a veces divide esa cantidad de forma diferente y la llama $\bf{P=X(X^T X)^{-1}}X^{T}$ el P a matriz de proyección, la matriz de influencia o la matriz del sombrero. Se puede pensar en la matriz de proyección como un mapeo entre la $y$ y los previstos.

La matriz de proyección tiene una serie de propiedades útiles. En particular, la $k$ elemento de su diagonal principal ( $\mathbf{P}_{k,k}$ ) contiene la puntuación de apalancamiento para el $k$ Este dato puede ser una información útil para el diagnóstico.

2 votos

Ahora me haces pensar. ¿Qué significa la suma de la diagonal de la matriz de proyección?

4 votos

@horaceT La traza de la matriz del sombrero es el número de parámetros libres (f.d. del modelo). Esto se aplica a los modelos que se pueden escribir en la forma lineal $\hat{y}=Ay$ que incluye muchos modelos que no son simples modelos de regresión lineal. Muchos suavizadores pueden escribirse de esta forma, por ejemplo.

2voto

Supongamos que tenemos un sistema lineal de $m$ ecuaciones en $\mathrm x \in \mathbb R^n$

$$\mathrm A \mathrm x = \mathrm b$$

où $\mathrm A \in \mathbb R^{m \times n}$ tiene rango de columna completo, y $\mathrm b \in \mathbb R^m$ . Multiplicando ambos lados por $\mathrm A^T$ obtenemos un sistema lineal de $n \leq m$ ecuaciones en $\mathrm x \in \mathbb R^n$

$$\mathrm A^T \mathrm A \mathrm x = \mathrm A^T \mathrm b$$

que se suele conocer como "ecuaciones normales". Dado que $\mathrm A$ tiene rango de columna completo, la matriz cuadrada $\mathrm A^T \mathrm A$ es invertible. Por lo tanto, este último sistema lineal tiene la solución única $(\mathrm A^T \mathrm A)^{-1} \mathrm A^T \mathrm b$ mientras que el sistema lineal original, $\mathrm A \mathrm x = \mathrm b$ Puede que ni siquiera tenga una solución. Nótese que una solución de las "ecuaciones normales" no es necesariamente una solución del sistema lineal original.

Entonces, ¿cuál es el "significado" de $\mathrm A^T \mathrm b$ ? Es una proyección a escala de $\mathrm b$ en el espacio de columnas de $\mathrm A$ . El dimensión del lado derecho es reducido de $m \geq n$ à $n$ para poder encontrar una solución única. Como las columnas de $\mathrm A$ no están necesariamente normalizados, la multiplicación a la izquierda por $(\mathrm A^T \mathrm A)^{-1}$ proporciona la normalización necesaria.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X