24 votos

Prueba de Strang de SVD e intuición detrás de las matrices $U$ y $V"

En la clase 29 de MIT 18.06, el Profesor Gilbert Strang "demuestra" la descomposición de valores singulares (SVD) asumiendo que podemos escribir $A = U\Sigma V^T$ y luego derivando lo que $U$, $\Sigma$ y $V$ deben ser basados en la descomposición en valores propios de $$ AA^T = U\Sigma ^2 U^T$$ y $$ A^TA = V\Sigma ^2 V^T$$

Mi intuición me dice que hay algo mal en asumir primero que podemos escribir $A$ en esta forma. Es decir, estamos encontrando $U$, $\Sigma$ y $V$ para esas matrices que tienen esta forma, pero ¿qué pasa si algunas matrices no pueden ser escritas en esta forma en primer lugar?

Además, ¿hay alguna intuición que se pueda encontrar sobre $U$ y $V$ solo pensando en ellos como autovectores de $AA^T$ y $A^TA$? ¿En el sentido de que deberíamos poder saber por qué $V$ tendrá sus propiedades (ser mapeado ortogonalmente por $A$) solo mirándolo como un autovector de $A^TA$ (que de alguna manera "codifica" implícitamente la base $U$)? No estoy seguro si esta intuición tiene sentido tampoco.

30voto

liammclennan Puntos 3535

Disculpas por que esto resultó un poco largo.

No he visto las conferencias pero he enseñado a través del libro. Así que entiendo lo que estás sintiendo. Strang está optando por un estilo más intuitivo que axiomático en su exposición. Así que tienes razón; él asume que la SVD existe y luego deriva lo que los datos deben ser.

Pero si lees la sección al revés puedes obtener una versión más deductiva. Primero, $A^TA$ es simétrica y semi-definida positiva (las dos secciones anteriores del libro). Por lo tanto, $A^TA$ es diagonalizable por una matriz ortogonal, y sus autovalores no nulos son todos positivos. Este es el hecho clave que permite que ocurra la SVD. Ordénalos como $\sigma_1^2 \geq \sigma_2^2 \geq \dotsm \geq \sigma_r^2 > 0$. Nota que $r = \operatorname{rank}(A^TA)$, que es igual a $\operatorname{rank}(A)$ (esto se demuestra en algún lugar del Capítulo 3). Sea $v_1, \dots, v_r$ un conjunto ortonormal de autovectores para estos autovalores positivos, y $v_{r+1}, \dots, v_{n}$ una base ortonormal para el espacio nulo, es decir, el núcleo de $A^TA$.

Luego muestra que si $v$ es un autovector unitario de $A^TA$ con autovalor $\sigma^2$, entonces $u = \frac{1}{\sigma}Av$ es un autovector unitario de $AA^T$ con autovalor $\sigma^2$. Esta es la relación clave en la SVD. Así que si $V$ es la matriz $n \times n$ cuya columna $i$-ésima es $v_i$, $V_r$ las primeras $r$ columnas de $V$, $\Sigma_r$ la matriz diagonal $r \times r$ cuya entrada $i$-ésima es $\sigma_i$, y $U_r$ la matriz $m\times r$ cuya columna $i$-ésima es $u_i = \frac{1}{\sigma_i} A V_i$, tenemos $$ U_r = AV_r \Sigma_r^{-1} \implies U_r \Sigma_r = AV_r $$ Multiplicando ambos lados por la traspuesta de $V_r$ y notando que sus columnas son ortonormales, obtenemos $$ U_r \Sigma_r V_r^T = A V_r V_r^T = A I_r = A $$

¡Pero espera, hay más! como podría decir Strang. Los vectores $v_{r+1},\dots,v_n$ abarcan el espacio nulo de $A^TA$. Pero el espacio nulo de $A^TA$ es el mismo que el espacio nulo de $A$. Los vectores $u_1, \dots, u_r$ son $r$ (recuerda, este es el rango de $A$) vectores ortonormales en el espacio de columnas de $A$, por lo que abarcan el espacio de columnas (un subespacio de $\mathbb{R}^m$). Podemos completar el conjunto $u_1, \dots, u_r$ con vectores ortonormales $u_{r+1},\dots,u_{m}$ para crear una base completa y ortonormal de $\mathbb{R}^m$.

Ahora tenemos $r$ triples $(v_i,u_i,\sigma_i)$, donde $Av_i = \sigma_i u_i$, y $n-r$ vectores $v_{r+1},\dots v_{n}$, donde $A v_i = 0$. Entonces, si dejamos que $\Sigma$ sea la matriz diagonal $\Sigma_r$ aumentada por $n-r$ columnas de ceros y $m-r$ filas de ceros, y $U$ sea la matriz completa $m\times m$ cuya columna $i$-ésima es $u_i$, todavía es cierto que $AV = U\Sigma$. Entonces nuevamente, $$ A = U \Sigma V^T $$ pero ahora $U$ es una matriz ortogonal $m\times m$, $V$ es una matriz ortogonal $n\times n$, y $\Sigma$ es la matriz dispersa $m\times n$ cuya entrada $(i,i)$-ésima es $\sigma_i$, con todas las demás entradas cero.

El hermoso hecho final proviene al tomar complementos ortogonales. Tenemos una base ortonormal $u_1, \dots, u_m$ de $\mathbb{R}^m$, las primeras $r$ de las cuales abarcan el espacio de columnas de $A$. Por lo tanto, los restantes $m-r$ vectores $u_{r+1},\dots,u_m$ abarcan el $C(A)^\perp = N(A^T)$. Asimismo, $v_1,\dots,v_n$ es una base ortonormal de $\mathbb{R}^n$, los últimos $n-r$ de los cuales abarcan el espacio nulo de $A$. Por lo tanto, los primeros $r$ de ellos abarcan $N(A)^\perp = C(A^T)$. Por lo tanto, la SVD produce no solo los valores singulares y esta bonita factorización, sino simultáneamente un conjunto de bases ortonormales para los cuatro subespacios.

10voto

John Hughes Puntos 27780

Tienes razón en que hay algo incorrecto en suponer que podemos hacer eso. Pero no hay nada malo en decir "Si pudiéramos hacer eso, ¿qué nos diría?"

Por ejemplo, podrías pensar, "Apuesto a que toda matriz cuadrada es la suma de una matriz simétrica y una matriz antisimétrica. Veamos qué nos dice eso. Si escribo $$ M = S + A $$ donde $S$ es simétrica, etc., entonces tomando traspuestas encuentro que $$ M^T = S^T + A^T = S - A $$ y eso me dice que $$ M + M^T = 2S $$ entonces $$ S = \frac{1}{2}(M + M^T) $$ y (de manera similar) $$ A = \frac{1}{2} ( M - M^T)." $$

De acuerdo, así que al haber descubierto eso, te puedes preguntar, "Supongamos que defino $S$ y $A$ por esas últimas dos fórmulas... ¿siempre será $S$ simétrica? ¿Siempre será $A$ antisimétrica? ¿Será siempre su suma $M$?"

La respuesta a las tres preguntas es "sí".

Ahora, al escribir tu prueba de que cada matriz se descompone de esta manera, tienes dos opciones.

  1. Puedes admitirle al lector que llegaste a esta idea haciendo el ejercicio del "qué pasaría si", o

  2. Puedes pretender que las fórmulas te fueron entregadas desde el cielo, o por pura brillantez, o lo que sea.

Creo que Strang está tomando el primer enfoque: mostrando cómo, si sospecharas que siempre existirá una descomposición en valores singulares, podrías llegar a lo que las matrices DEBEN ser; luego trabajas a través de una prueba de que esas matrices realmente TIENEN las propiedades que deseas.

Si partes de una conjetura falsa, como "5 es la suma de dos números pares adyacentes", puedes hacer lo mismo. Pero cuando encuentres fórmulas para los números pares, descubrirás... que no son pares. Así que asumir algo falso para conjeturar una fórmula no es un pecado... pero fallar en verificar que la fórmula resultante sea válida? Eso está mal.

No he respondido a la segunda parte de tu pregunta ("¿Hay alguna intuición...") porque la intuición de una persona puede ser el desconcierto de otra. Yo no veo una intuición inmediata en este caso, pero no tengo una gran intuición para el significado de la transformación representada por $A^t$ (excepto si pensamos en espacios duales, y no estoy seguro de que sea útil aquí).

1voto

hirschme Puntos 23

(Más un comentario pero demasiado largo para formatear. )

Es incorrecto probar algo asumiendo que es verdadero y no mostrando ninguna contradicción.

Pero si puedes revertir cada paso, entonces se puede contar como una prueba. Es decir, asumiendo algunos hechos no contradictorios, mostrar que la proposición es verdadera.

En esa línea de pensamiento:

Sea $v_{i}$ los vectores propios ortonormales de $A^TA$, que siempre existe.

Sea $\sigma_{i}^2$ los valores propios correspondientes, que siempre existen y son positivos.

Las definiciones anteriores implican: $$A^TAv_{i}=\sigma_{i}^2v_{i}$$

Sea $$u_{i} = \frac{Av_{i}}{\sigma_{i}} $$ que siempre existe, y se puede demostrar que es ortonormal.

Ahora, lo siguiente siempre es cierto:

$$AA^Tu_i=AA^T \frac{Av_i}{\sigma_i} = \frac{A}{\sigma_i}A^TAv_i = \frac{A}{\sigma_i}\sigma_{i}^2v_i = \sigma_{i}^2\frac{Av_{i}}{\sigma_{i}} = \sigma_{i}^2u_i$$

Lo que significa que $u_i$ es un vector propio de $AA^T$ y $\sigma_{i}^2$ es el valor propio.

Como se define, para cualquier $A$ tenemos, $$Av_i=\sigma_{i}u_i$$ Y se puede demostrar que hay $r$ tales tripletes ($v_i, \sigma_{i}, u_i$). Luego se convierte en $$A_{m \times n}V_{n \times r}=U_{m \times r} \Sigma_{r \times r}$$ Que es la forma reducida de SVD.

Se puede mostrar además que $v_i$ abarca el espacio de filas de $A$. ($v_i$ está en el espacio de filas de $A$ ya que $A^TAv_{i}=\sigma_{i}^2v_{i}$, y hay $r$ cantidad de $v_i$ ortogonales debido a $r$ valores propios no nulos de $A^TA$ debido a $rank(A^TA)=rank(A)=r$) Usa los subespacios complementarios ortogonales para completar $V, U$ a una forma cuadrada y luego es la forma completa de SVD.

Estos pasos construyen la SVD para cualquier A y no asumen que la SVD existe.

0voto

Wayne Kent Puntos 1

Supongo, intuitivamente, que la existencia de la SVD puede ser demostrada por contradicción. Supongamos que la SVD no existe para alguna matriz $$X \neq USV^T$$ donde $U$ y $V$ son ortogonales y $D$ es diagonal. Usando el hecho de que $XX^T$ forma una matriz simétrica $A$; y la descomposición en valores propios $A = WDW^T$ existe; entonces $$A = WDW^T = WD^{1/2}I (WD^{1/2}I)^T $$ lo cual implica que existe tal matriz $X = WD^{1/2}I$. Dado que el 3-tupla $(W,D^{1/2},I)$ cumple las condiciones de la 3-tupla SVD $(U,S,V)$, esto lleva a una contradicción en $X \neq USV^T$.

¿Estoy en lo correcto...?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X