Disculpas por que esto resultó un poco largo.
No he visto las conferencias pero he enseñado a través del libro. Así que entiendo lo que estás sintiendo. Strang está optando por un estilo más intuitivo que axiomático en su exposición. Así que tienes razón; él asume que la SVD existe y luego deriva lo que los datos deben ser.
Pero si lees la sección al revés puedes obtener una versión más deductiva. Primero, $A^TA$ es simétrica y semi-definida positiva (las dos secciones anteriores del libro). Por lo tanto, $A^TA$ es diagonalizable por una matriz ortogonal, y sus autovalores no nulos son todos positivos. Este es el hecho clave que permite que ocurra la SVD. Ordénalos como $\sigma_1^2 \geq \sigma_2^2 \geq \dotsm \geq \sigma_r^2 > 0$. Nota que $r = \operatorname{rank}(A^TA)$, que es igual a $\operatorname{rank}(A)$ (esto se demuestra en algún lugar del Capítulo 3). Sea $v_1, \dots, v_r$ un conjunto ortonormal de autovectores para estos autovalores positivos, y $v_{r+1}, \dots, v_{n}$ una base ortonormal para el espacio nulo, es decir, el núcleo de $A^TA$.
Luego muestra que si $v$ es un autovector unitario de $A^TA$ con autovalor $\sigma^2$, entonces $u = \frac{1}{\sigma}Av$ es un autovector unitario de $AA^T$ con autovalor $\sigma^2$. Esta es la relación clave en la SVD. Así que si $V$ es la matriz $n \times n$ cuya columna $i$-ésima es $v_i$, $V_r$ las primeras $r$ columnas de $V$, $\Sigma_r$ la matriz diagonal $r \times r$ cuya entrada $i$-ésima es $\sigma_i$, y $U_r$ la matriz $m\times r$ cuya columna $i$-ésima es $u_i = \frac{1}{\sigma_i} A V_i$, tenemos $$ U_r = AV_r \Sigma_r^{-1} \implies U_r \Sigma_r = AV_r $$ Multiplicando ambos lados por la traspuesta de $V_r$ y notando que sus columnas son ortonormales, obtenemos $$ U_r \Sigma_r V_r^T = A V_r V_r^T = A I_r = A $$
¡Pero espera, hay más! como podría decir Strang. Los vectores $v_{r+1},\dots,v_n$ abarcan el espacio nulo de $A^TA$. Pero el espacio nulo de $A^TA$ es el mismo que el espacio nulo de $A$. Los vectores $u_1, \dots, u_r$ son $r$ (recuerda, este es el rango de $A$) vectores ortonormales en el espacio de columnas de $A$, por lo que abarcan el espacio de columnas (un subespacio de $\mathbb{R}^m$). Podemos completar el conjunto $u_1, \dots, u_r$ con vectores ortonormales $u_{r+1},\dots,u_{m}$ para crear una base completa y ortonormal de $\mathbb{R}^m$.
Ahora tenemos $r$ triples $(v_i,u_i,\sigma_i)$, donde $Av_i = \sigma_i u_i$, y $n-r$ vectores $v_{r+1},\dots v_{n}$, donde $A v_i = 0$. Entonces, si dejamos que $\Sigma$ sea la matriz diagonal $\Sigma_r$ aumentada por $n-r$ columnas de ceros y $m-r$ filas de ceros, y $U$ sea la matriz completa $m\times m$ cuya columna $i$-ésima es $u_i$, todavía es cierto que $AV = U\Sigma$. Entonces nuevamente, $$ A = U \Sigma V^T $$ pero ahora $U$ es una matriz ortogonal $m\times m$, $V$ es una matriz ortogonal $n\times n$, y $\Sigma$ es la matriz dispersa $m\times n$ cuya entrada $(i,i)$-ésima es $\sigma_i$, con todas las demás entradas cero.
El hermoso hecho final proviene al tomar complementos ortogonales. Tenemos una base ortonormal $u_1, \dots, u_m$ de $\mathbb{R}^m$, las primeras $r$ de las cuales abarcan el espacio de columnas de $A$. Por lo tanto, los restantes $m-r$ vectores $u_{r+1},\dots,u_m$ abarcan el $C(A)^\perp = N(A^T)$. Asimismo, $v_1,\dots,v_n$ es una base ortonormal de $\mathbb{R}^n$, los últimos $n-r$ de los cuales abarcan el espacio nulo de $A$. Por lo tanto, los primeros $r$ de ellos abarcan $N(A)^\perp = C(A^T)$. Por lo tanto, la SVD produce no solo los valores singulares y esta bonita factorización, sino simultáneamente un conjunto de bases ortonormales para los cuatro subespacios.