En la regresión lineal, ¿hay algún significado para el término $X^Ty$ ?

Question

En la regresión lineal, ¿hay algún significado para el término $X^Ty$ ?

Preguntado el 7 de Julio, 2016: Cuando se hizo la pregunta
214 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Hace poco, me preguntaba sobre esta cuestión.

En un problema de regresión lineal estándar ( $y=X\beta$ y resolvemos para $\beta$ ), la solución es $\beta = X^{-1}y$ cuando $X$ es cuadrado e invertible, y $(X^T X)^{-1}X^T y$ cuando $X$ tiene rango de columna completo.

Sin embargo, me pregunto si hay alguna otra explicación para este término, por ejemplo, verlo como la covarianza inversa $(X^TX)^{-1}$ multiplicado por $X^Ty$ . Entonces, me pregunto cuál es el significado para $X^Ty$ que lo convierte en una solución?

Parece que $X^Ty$ es sólo un vector de productos punto de cada vector de características y etiquetas ( $y$ ). No sé si hay una explicación mejor.

Preguntado el 7 de Julio, 2016 por weeheavy

1 votos

Es de suponer, punto productos en lugar de doc ?

Comentado el 8 de Julio, 2016 por Silverfish

Answer 1

3 Respuestas

Answer 2

5voto

HyLian Puntos 2058

Intentaré explicarlo desde el punto de vista del álgebra lineal, pero no estoy seguro de que sea lo que necesitas.

En primer lugar, al resolver la ecuación en el caso del sistema inconsistente, sabemos que $\hat y$ es la proyección ortogonal de $y$ en el espacio de columnas de $X$ . En otras palabras, $\hat y$ puede estimarse mediante $X \hat \beta$ . En segundo lugar, sabemos que cuando restamos $y - \hat y$ creamos la componente ortogonal, que es ortogonal al espacio de columnas de $X$ .

Además, sabemos que la ortogonalidad significa que si algún vector $a$ que es ortogonal al vector $b$ se multiplica por $b$ , dará $0$ como resultado. Por último, para tener el espacio de columnas y no el de filas de la matriz $X$ necesitamos tomar la transposición de la misma.

Así, tenemos una ecuación $X^T(y - X\hat \beta) = 0$

Al abrir los paréntesis y poner diferentes partes de la ecuación en los diferentes lados, recibimos la misma ecuación de la que has hablado.

$\hat \beta = (X^TX)^{-1}X^Ty$

Respondido el 7 de Julio, 2016 por HyLian (2058 Puntos )

Answer 3

2voto

Rob Allen Puntos 486

La gente a veces divide esa cantidad de forma diferente y la llama $\bf{P=X(X^T X)^{-1}}X^{T}$ el P a matriz de proyección, la matriz de influencia o la matriz del sombrero. Se puede pensar en la matriz de proyección como un mapeo entre la $y$ y los previstos.

La matriz de proyección tiene una serie de propiedades útiles. En particular, la $k$ elemento de su diagonal principal ( $\mathbf{P}_{k,k}$ ) contiene la puntuación de apalancamiento para el $k$ Este dato puede ser una información útil para el diagnóstico.

Respondido el 7 de Julio, 2016 por Rob Allen (486 Puntos )

2 votos

Ahora me haces pensar. ¿Qué significa la suma de la diagonal de la matriz de proyección?

Comentado el 8 de Julio, 2016 por horaceT

4 votos

@horaceT La traza de la matriz del sombrero es el número de parámetros libres (f.d. del modelo). Esto se aplica a los modelos que se pueden escribir en la forma lineal $\hat{y}=Ay$ que incluye muchos modelos que no son simples modelos de regresión lineal. Muchos suavizadores pueden escribirse de esta forma, por ejemplo.

Comentado el 8 de Julio, 2016 por AdamSane

Answer 4

2voto

Rodrigo de Azevedo Puntos 153

Supongamos que tenemos un sistema lineal de $m$ ecuaciones en $\mathrm x \in \mathbb R^n$

$\mathrm A \mathrm x = \mathrm b$

où $\mathrm A \in \mathbb R^{m \times n}$ tiene rango de columna completo, y $\mathrm b \in \mathbb R^m$ . Multiplicando ambos lados por $\mathrm A^T$ obtenemos un sistema lineal de $n \leq m$ ecuaciones en $\mathrm x \in \mathbb R^n$

$\mathrm A^T \mathrm A \mathrm x = \mathrm A^T \mathrm b$

que se suele conocer como "ecuaciones normales". Dado que $\mathrm A$ tiene rango de columna completo, la matriz cuadrada $\mathrm A^T \mathrm A$ es invertible. Por lo tanto, este último sistema lineal tiene la solución única $(\mathrm A^T \mathrm A)^{-1} \mathrm A^T \mathrm b$ mientras que el sistema lineal original, $\mathrm A \mathrm x = \mathrm b$ Puede que ni siquiera tenga una solución. Nótese que una solución de las "ecuaciones normales" no es necesariamente una solución del sistema lineal original.

Entonces, ¿cuál es el "significado" de $\mathrm A^T \mathrm b$ ? Es una proyección a escala de $\mathrm b$ en el espacio de columnas de $\mathrm A$ . El dimensión del lado derecho es reducido de $m \geq n$ à $n$ para poder encontrar una solución única. Como las columnas de $\mathrm A$ no están necesariamente normalizados, la multiplicación a la izquierda por $(\mathrm A^T \mathrm A)^{-1}$ proporciona la normalización necesaria.

Respondido el 8 de Julio, 2016 por Rodrigo de Azevedo (153 Puntos )

En la regresión lineal, ¿hay algún significado para el término $X^Ty$ ?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

En la regresión lineal, ¿hay algún significado para el término XTyXTyX^Ty ?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by:

En la regresión lineal, ¿hay algún significado para el término $X^Ty$ ?