17 votos

¿Por qué funciona el cálculo de inversas de matrices, raíces, etc. utilizando el espectro de una matriz?

Supongamos que $A$ es un $n \times n$ matriz de $M_n(\mathbb{C})$ con valores propios $\lambda_1, \ldots, \lambda_s$ . Sea $$m(\lambda) = (\lambda - \lambda_1)^{m_1} \ldots (\lambda - \lambda_s)^{m_s}$$

sea el polinomio mínimo de $A$ .

Definimos $f(A)$ en general para ser $p(A)$ para algún polinomio que interpola $f(\lambda_k), f'(\lambda_k), \ldots, f^{(m_k - 1)}(\lambda_k)$ para todos $k$ , suponiendo que $f$ se define en estos puntos. Esto está bien definido porque para dos polinomios interpolantes cualesquiera $p$ y $q$ tenemos $p(A) = q(A)$ y dicho polinomio siempre existe. También podemos encontrar un polinomio $p$ que tiene grado menor que el polinomio mínimo $m$ .

Además, entonces existen matrices linealmente independientes $Z_{ij}$ tal que para cualquier $f$ definido en $f(\lambda_k), f'(\lambda_k), \ldots, f^{(m_k - 1)}(\lambda_k)$ para todos $k$ tenemos

$$f(A) = \sum_{k = 1}^{s} ( f(\lambda_k)Z_{k0} + f'(\lambda_k)Z_{k1} + \ldots + f^{(m_k - 1)}(\lambda_k)Z_{k, m_k - 1})$$


Bien, con las definiciones y demás fuera del camino, aquí está la pregunta real

Podemos utilizar esta definición para calcular $f(A)$ para $f$ como $f(x) = 1/x$ que nos da la inversa de $A$ o $f(x) = \sqrt{x}$ que nos da la raíz cuadrada de $A$ o $f(A)$ para cualquier polinomio $f(x)$ . La definición de serie de potencias de $\sin(A)$ , $\cos(A)$ etc. también está de acuerdo con la definición.

En mi opinión, todo esto es realmente asombroso e interesante, pero ¿por qué demonios funciona esto? No tengo ni idea de por qué las propiedades de la función inversa $1/x$ o la raíz cuadrada $\sqrt{x}$ se "pasan" a las matrices de esta manera.

Además, ¿cómo se llama esto? Espectral algo, pero no estoy seguro. He intentado buscarlo en Wikipedia y en Google pero no he encontrado nada. Además de respuestas que me ayuden a entender de qué se trata, agradeceré cualquier referencia, palabra clave y demás.

9voto

cjstehno Puntos 131

Dos libros clásicos donde se pueden encontrar todos los detalles sobre este tema:

  1. Gantmacher, teoría de la matriz, Chelsea.
  2. Lancaster-Titsmenesky, The theory of matrices, Academic Press.

En realidad, para los cálculos "a mano", esto funciona a través de la forma canónica de Jordan: encuentras la forma canónica de Jordan de tu matriz, junto con la matriz de cambio de base

$$ A = SJS^{-1} \ . $$

Entonces se demuestra que, para cualquier polinomio $p(t)$ , usted tiene

$$ p(A) = S p(J) S^{-1} \ . $$

Por lo tanto,

$$ f(A) = S f(J) S^{-1} $$

y sólo hay que calcular $p(J)$ para las matrices de Jordan.

Lo cual se hace de la siguiente manera: primero, si se tiene una matriz diagonal de bloques

$$ J = \begin{pmatrix} J_1 & 0 & \dots & 0 \\ 0 & J_2 & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & J_r \end{pmatrix} $$

se puede demostrar fácilmente que

$$ p(J) = \begin{pmatrix} p(J_1) & 0 & \dots & 0 \\ 0 & p(J_2) & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & p(J_r) \end{pmatrix} $$

Así que, de nuevo, por un lado,

$$ f(J) = \begin{pmatrix} f(J_1) & 0 & \dots & 0 \\ 0 & f(J_2) & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & f(J_r) \end{pmatrix} $$

y, por otro lado, sólo necesitas saber $p(J)$ cuando $J$ es un bloque Jordan. Si :

$$ J = \begin{pmatrix} \lambda & 0 & 0 & \dots & 0 & 0 \\ 1 & \lambda & 0 & \dots & 0 & 0 \\ 0 & 1 & \lambda & \dots & 0 & 0 \\ \vdots & \vdots & \ddots & \ddots & \vdots & \vdots \\ 0 & 0 & \dots & 1 & \lambda & 0 \\ 0 & 0 & \dots & 0 & 1 & \lambda \end{pmatrix} $$

es un $r\times r$ Bloque de Jordania, entonces

$$ p(J) = \begin{pmatrix} p(\lambda ) & 0 & 0 & \dots & 0 & 0 \\ p'(\lambda)/ 1! & p(\lambda) & 0 & \dots & 0 & 0 \\ p''(\lambda)/ 2! & p'(\lambda)/ 1! & p(\lambda) & \dots & 0 & 0 \\ \vdots & \vdots & \ddots & \ddots & \vdots & \vdots \\ p^{(r-2)}(\lambda)/(r-2)! &p^{(r-3)}(\lambda)/(r-3)! & \dots & p'(\lambda)/ 1! & p(\lambda) & 0 \\ p^{(r-1)}(\lambda)/(r-1)! &p^{(r-2)}(\lambda)/(r-2)! & \dots & p''(\lambda)/2! & p'(\lambda)/ 1! & p(\lambda) \end{pmatrix} $$

Por lo tanto, de nuevo tiene todo en términos de $f$ de hecho:

$$ f(J) = \begin{pmatrix} f(\lambda ) & 0 & 0 & \dots & 0 & 0 \\ f'(\lambda)/ 1! & f(\lambda) & 0 & \dots & 0 & 0 \\ f''(\lambda)/ 2! & f'(\lambda)/ 1! & f(\lambda) & \dots & 0 & 0 \\ \vdots & \vdots & \ddots & \ddots & \vdots & \vdots \\ f^{(r-2)}(\lambda)/(r-2)! &f^{(r-3)}(\lambda)/(r-3)! & \dots & f'(\lambda)/ 1! & f(\lambda) & 0 \\ f^{(r-1)}(\lambda)/(r-1)! &f^{(r-2)}(\lambda)/(r-2)! & \dots & f''(\lambda)/2! & f'(\lambda)/ 1! & f(\lambda) \end{pmatrix} $$

Y, en esta versión de la historia, en realidad no necesitas conocer tu polinomio $p(t)$ para su función $f(t)$ y la matriz $A$ -pero no es difícil encontrarlo, de todos modos: se llama Lagrange-Sylvester polinomio, que es una especie de mezcla entre el clásico polinomio de interpolación de Lagrange y una serie de Taylor.

EDITAR

Sin embargo, parece que he olvidado responder a la pregunta más importante: "¿Por qué funciona realmente todo esto?"

Es decir, por qué definir

$$ f(A) = p(A) $$

para algún polinomio $p(t)$ que está de acuerdo con $f(t)$ en el espectro de $A$ ¿todo esto tiene sentido? Es decir, ¿por qué razón podemos llamar a $p(A)$ (lo computable) el "valor" de $f(t)$ en la matriz $A$ ?

Por lo siguiente:

Teorema. (Gantmacher, capítulo V, $\S 4$ teorema 2). Si la función $f(t)$ puede expandirse en una serie de potencias en el círculo $\vert t - \lambda \vert < r$ ,

$$ f(t) = \sum_{n=0}^\infty a_n(t-\lambda)^n \ , $$

entonces esta expansión sigue siendo válida cuando el argumento escalar $t$ se sustituye por una matriz $A$ cuyos valores propios se encuentran dentro del círculo de convergencia.

Es decir, bajo las hipótesis del teorema, se tiene

$$ f(A) = \sum_{n=0}^\infty a_n(A-\lambda I)^n \ , $$

donde el $f(A)$ en el lado izquierdo significa $p(A)$ el valor del polinomio de Lagrange-Sylvester en $A$ .

Entonces, ¿por qué no definir $f(A)$ como esta última serie de potencias (es decir, la serie de Taylor de $f(t)$ )? Pues porque entonces habría que hablar mucho tiempo de los problemas de convergencia de serie de matrices ... Y terminarías, finalmente, en el mismo punto: confiar en la forma canónica de Jordan para los cálculos reales. Así pues, el dispositivo de Lagrange-Sylvester te permite librarte de los problemas de convergencia -si estás dispuesto a aceptar $f(A) = p(A)$ como una buena definición.

3voto

CodingBytes Puntos 102

Cuando la matriz $A$ no es diagonalizable, el trabajo con el "espectro" se vuelve técnicamente complicado, pero incluso así, mediante el teorema de Cauchy del análisis complejo, se puede dar sentido a $\sin(A)$ etc., en una única fórmula que no implica ningún valor propio ni proceso de diagonalización: Cuando todos los valores propios de $A$ están contenidos en el disco $D_R$ de radio $R$ alrededor de $0$ entonces $$\sin(A)={1\over2\pi i}\int_{\partial D_R}{\sin z\over z-A}\ dz\ .$$

Volviendo a las matrices: En el caso unidimensional un $A:\ {\mathbb R}\to{\mathbb R}$ es sólo una escala $t\mapsto \lambda t$ con un determinado factor $\lambda\in{\mathbb C}$ y el único significado $f(A)$ podría tener entonces es que $f(A)$ escala por el factor $f(\lambda)$ .

En el $n$ -caso diagonalizable el espacio $V={\mathbb R}^n$ donde $A$ puede escribirse como una suma directa $V=\oplus_{i=1}^n V_i$ de los espacios unidimensionales eigenspaces $V_i:=\{x| Ax=\lambda_i x\}$ . Esto significa que $A$ actúa como $n$ escalas unidimensionales independientes $t\mapsto \lambda_i t$ en paralelo. Si se le da una función $f$ cuyo dominio $\Omega\subset{\mathbb C}$ contiene el $\lambda_i$ entonces $f(A)$ restringido a uno de los $V_i$ es sólo el mapa $$f(A)\restriction V_i: \quad t\mapsto f(\lambda_i) t\ ,$$ donde $t$ es una coordenada "local" en $V_i$ , denotado por $t_i$ cuando miramos todo esto al mismo tiempo.

Ahora, como todo esto tiene sentido cuando miramos $A$ como un mapa lineal $V\to V$ Por principios generales, esto también tiene sentido en el mundo de las matrices. En particular: Si $T$ es la matriz cuyas columnas son los vectores propios de $A$ es decir, los vectores base del $V_i$ arriba, y $D={\rm diag}(\lambda_1,\ldots,\lambda_n)$ es la matriz diagonal que contiene los valores propios, entonces $$f(A)=T\ {\rm diag}\bigl(f(\lambda_1),\ldots,f(\lambda_n)\bigr)\ T^{-1}\ .$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X