2 votos

Idea de cómo resolver una ecuación lineal para columnas linealmente dependientes

Consideremos una matriz $M$ con dos columnas dependientes lineales como $\pmatrix{2&2\\2&2\\2&2}$ . Tengo una idea de cómo encontrar la solución por mínimos cuadrados de $Mx = b$ : ¿Es un buen planteamiento añadir un número muy pequeño $\varepsilon$ a una entrada de $M$ y $b$ por ejemplo $\tilde M=\pmatrix{2&2\\2&2+\varepsilon\\2&2}, \tilde b=\pmatrix{4\\3+\varepsilon\\5}$ de forma que las columnas ya no dependan linealmente y resolver por $$x=(\tilde M'\tilde M)^{-1}\tilde M'\tilde b?$$ Por favor, toma como referencia mi planteamiento, no el de otros como SVD.

1voto

Theo Bendit Puntos 2468

Un contraejemplo concreto

No, por desgracia, no es un buen enfoque. Dicho esto, para este $b$ Este es un caso muy específico. $M$ y su elección particular de perturbación $\tilde{M}$ (en función de $\varepsilon$ ), este cálculo funcionará. Si cambiamos $b$ comprobaremos que no es así.

Sea $b = (6, 0, 0)^\top$ . Entonces, $$\tilde{M}^\top b = \pmatrix{2&2&2\\2&2+\varepsilon&2}\pmatrix{6\\0\\0} = \pmatrix{12 \\ 12}.$$ Tenemos, $$\tilde{M}^\top \tilde{M} = \pmatrix{2&2&2\\2&2+\varepsilon&2}\pmatrix{2&2\\2&2+\varepsilon\\2&2} = \pmatrix{12&12+2\varepsilon\\12+2\varepsilon&12+4\varepsilon+\varepsilon^2}.$$

El determinante es: $$(\varepsilon^2 + 4\varepsilon + 12) \cdot 12 - (2\varepsilon + 12)^2 = 8\varepsilon^2 > 0,$$ por lo que la inversa es, $$(\tilde{M}^\top \tilde{M})^{-1} = \frac{1}{8\varepsilon^2}\pmatrix{12+4\varepsilon+\varepsilon^2&-12-2\varepsilon\\-12-2\varepsilon&12}.$$ Así, $$(\tilde{M}^\top \tilde{M})^{-1}\tilde{M}^\top b = \frac{1}{8\varepsilon^2}\pmatrix{12+4\varepsilon+\varepsilon^2&-12-2\varepsilon\\-12-2\varepsilon&12}\pmatrix{12\\12} = \frac{1}{8\varepsilon^2}\pmatrix{24\varepsilon+12\varepsilon^2\\-24\varepsilon}.$$

¡Esto ni siquiera es convergente! Es decir, eligiendo diferentes valores de $\varepsilon$ le darán soluciones de mínimos cuadrados muy diferentes.

Si le interesa menos el $x$ y más en el $Mx$ (es decir, la proyección ortogonal sobre el espacio de columnas de $M$ ), tengo buenas noticias, pero sobre todo malas noticias. La buena noticia es que nuestro problema de no convergencia desaparece. De hecho, nuestra proyección no depende de $\varepsilon$ en absoluto:

$$\tilde{M}(\tilde{M}^\top \tilde{M})^{-1} \tilde{M} x = \frac{1}{8\varepsilon^2}\pmatrix{2&2\\2&2+\varepsilon\\2&2}\pmatrix{24\varepsilon+12\varepsilon^2\\-24\varepsilon} = \pmatrix{3\\0\\3}.$$

La (muy) mala noticia es que ésta no es la proyección sobre el espacio de columnas de $M$ . De hecho, no es difícil ver que esto ni siquiera está en el espacio de columnas de $M$ . (La proyección correcta es $(2, 2, 2)^\top$ )

Debate general

Usted puede notar que yo no perturbar $b$ como en la pregunta. No habría servido de nada. Para una $\varepsilon$ el mapa lineal $c \mapsto (\tilde{M}^\top \tilde{M})^{-1}\tilde{M}^\top c$ como todos los mapas lineales con dominio finito, es continuo y, de hecho, Lipschitz. Es decir, existe algún $K$ tal que $$\|(\tilde{M}^\top \tilde{M})^{-1}\tilde{M}^\top \tilde{b} - (\tilde{M}^\top \tilde{M})^{-1}\tilde{M}^\top b\| \le K\|\tilde{b} - b\|.$$ Por lo tanto, si elegimos $\tilde{b}$ cerca de $b$ entonces las LSS resultantes serán proporcionalmente cercanas entre sí. Si hacemos que nuestra perturbación $\tilde{b}$ independiente de $\varepsilon$ acabaremos inevitablemente con otra función divergente de $\varepsilon$ no importa lo cerca que esté $\tilde{b}$ es $b$ . Si vinculamos esta perturbación a $\varepsilon$ entonces es posible que la función converja, pero su resultado será erróneo.

Entonces, intuitivamente, ¿por qué no funciona? La base de los mínimos cuadrados es encontrar proyecciones ortogonales en espacios de columnas de matrices. Por lo general, nos importa menos el LSS $x$ de lo que nos importa $Mx$ el vector en el espacio de columnas de $M$ que esté más cerca de $b$ . En $M$ no tiene columnas linealmente independientes, $x$ no será único, pero $Mx$ es siempre único.

Si perturbamos una matriz $M$ con columnas linealmente dependientes, de modo que sus columnas se vuelven linealmente independientes, estamos añadiendo dimensiones al espacio de columnas de $M$ . En nuestro ejemplo, el espacio de columnas de $M$ cambió de una línea $$L = \operatorname{span}\{(2, 2, 2)^\top\} = \operatorname{span}\{(1, 1, 1)^\top\},$$ a un avión: $$P = \operatorname{span}\{(2, 2, 2)^\top, (2, 2+\varepsilon, 2)^\top\} = \operatorname{span}\{(1, 0, 1)^\top, (0, 1, 0)^\top\}.$$ Es una característica casual de tu perturbación particular que siempre genere este mismo plano. Cambiando la perturbación cambiará el plano, y si no te ciñes a perturbaciones lineales en una columna dependiente, entonces podrías encontrar que el plano cambia dependiendo de $\varepsilon$ .

Al añadir una dimensión o más a $\operatorname{colspace} M$ cambias radicalmente el subespacio sobre el que se proyecta. El tamaño de $\varepsilon$ es irrelevante: estamos proyectando sobre un nuevo subespacio (que contiene al antiguo, en este caso). En este sentido, nuestro pequeño $\varepsilon$ no garantiza que nos encontremos en un caso "cercano", con una solución similar. Proyectar sobre este subespacio más amplio creará, por lo general, aproximaciones mucho mejores de $b$ .

En $b = (3, 4, 5)^\top$ Pero resulta que no ha sido así. Lo cierto es que la proyección sobre $P$ y la proyección sobre $L$ ambos resultaron ser $(4, 4, 4)$ . Esto es lo que hizo que este $b$ hacer que el método funcione aparentemente. Este no fue el caso de $b = (6, 0, 0)^\top$ lo que lo convierte en un candidato perfecto para un contraejemplo.

La divergencia de $x$ como $\varepsilon \to 0$ tampoco es infrecuente. Recordemos que $Mx$ es una combinación lineal de columnas de $M$ : $x_1$ veces la primera columna, y $x_2$ veces el segundo. Porque nuestra proyección $p = (3, 0, 3)$ de $b = (6, 0, 0)^\top$ en $P$ no yacía en $L$ , significa que la proyección no se produjo simplemente en el lapso de $(2, 2, 2)^\top$ y necesitaba $(2, 2 + \varepsilon, 2)^\top$ . Pero, se necesitan grandes múltiplos de este último para alejarse de la línea $L$ y cuanto menor sea $\varepsilon$ cuanto mayor sea el múltiplo requerido. Por razones similares, la divergencia del $x$ términos es de esperar para un contraejemplo.

Por otra parte, la convergencia de $\tilde{M}x$ es de esperar, siempre que los espacios entre columnas de $\tilde{M}x$ "convergen" (en un sentido que no voy a detallar). En nuestro caso, los espacios de columnas eran $P$ independientemente de $\varepsilon$ . Por eso nuestro $\tilde{M}x$ no dependía de $\varepsilon$ . Pero, por supuesto, el resultado fue la proyección sobre $P$ no $L$ por lo que nuestro resultado convergente era erróneo.

Espero que le sirva de ayuda.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X