1 votos

¿Por qué es $(\hat{X}^\top \hat{X} + \lambda n I)^{-1}\hat{X}^T \hat{y} = \hat{X}^T (\hat{X} \hat{X}^T + \lambda n I)^{-1} \hat{y}$ ¿Es cierto?

Intentaba mostrar lo siguiente:

$$(\hat{X}^T \hat{X} + \lambda n I)^{-1}\hat{X}^T \hat{y} = \hat{X}^T (\hat{X} \hat{X}^T + \lambda n I)^{-1} \hat{y}$$

Me dijeron que utilizara la descomposición del valor singular de $\hat{X} = U \Sigma V^T = \sum^{r}_{i=1} \sigma_i u_i v_i^T$ . Así que lo intenté:

$$ (\hat{X}^T \hat{X} + \lambda n I)^{-1} \hat{X}^T \hat{y} = (\hat{X}^T \hat{X} + \lambda n I)^{-1} (U \Sigma V^T)^\top \hat{y} $$

$$ ((U \Sigma V^T)^T (U \Sigma V^T) + \lambda n I)^{-1} V \Sigma U^T \hat{y} = ((V \Sigma^2 V^T) + \lambda n I)^{-1} V \Sigma U^T \hat{y} $$

Sin embargo, después de ese paso me quedé atascado y no era del todo obvio para mí cómo proceder. Hay muchas cosas que me confunden sobre cómo proceder:

  1. La primera es que no me queda del todo claro que un inverso para $ (\hat{X}^T \hat{X} + \lambda n I)^{-1} = ((U \Sigma^2 V^T) + \lambda n I)^{-1}$ incluso existe.
  2. En segundo lugar, aunque fuera invertible (es decir, que existiera una inversa), no conozco ninguna regla para la suma de matrices e inversas (creo que sí para las transposiciones $(A + B)^T = A^T + B^T$ pero no estoy seguro para los inversos y no encuentro nada útil).

¿Alguien tiene idea de cómo proceder? ¿O cómo podría seguir utilizando el SVD para mostrar la igualdad que estoy tratando de mostrar?

2voto

K. Miller Puntos 1448

Si $\hat{X} = U\Sigma V^T$ entonces $$ \hat{X}^T\hat{X} + \lambda n I = V\Sigma^T\Sigma V^T + \lambda n I = V(\Sigma^T\Sigma + \lambda n I)V^T $$

Por lo tanto, $(\hat{X}^T\hat{X} + \lambda n I)^{-1} = V(\Sigma^T\Sigma + \lambda n I)^{-1}V^T$ . La matriz entre paréntesis es invertible siempre que $\lambda n \neq -\sigma^2$ para cualquier valor singular $\sigma$ en el espectro de $\hat{X}$ . De la misma manera,

$$ (\hat{X}\hat{X}^T + \lambda n I)^{-1} = U(\Sigma\Sigma^T + \lambda n I)^{-1}U^T $$

Así, tenemos

\begin{align} \hat{X}^T(\hat{X}\hat{X}^T + \lambda n I)^{-1} &= V\Sigma^T(\Sigma\Sigma^T + \lambda n I)^{-1}U^T\\ &= V(\Sigma^T\Sigma + \lambda n I)^{-1}\Sigma^TU^T\\ &= (\hat{X}^T\hat{X} + \lambda n I)^{-1}\hat{X}^T \end{align}

Así que, esencialmente, el uso de la SVD reduce el problema al caso especial de las matrices diagonales.

2voto

H. H. Rugh Puntos 1963

Dejemos que $X$ ser un $m\times k$ matriz. Tiene $$(X^T X + \lambda n I_m) X^T = X^T (X X^T + \lambda n I_k).$$ Cuando $-\lambda n$ no está en el espectro de $X^T X$ ni $X X^T$ (por ejemplo, cuando $\lambda n >0$ ) entonces se puede invertir para obtener: $$ X^T(X X^T + \lambda n I_k)^{-1} = (X^T X + \lambda n I_m)^{-1}X^T .$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X