39 votos

¿Es esta demostración en una línea del teorema de Cayley-Hamilton incompleta?

En los comentarios a la respuesta de Martin Brandenburg a esta vieja pregunta de MO, Victor Protsak ofrece la siguiente "prueba de 1 línea" del teorema de Cayley-Hamilton. Aquí $p_A(\lambda)$ es el polinomio característico.

Sea $X = A - \lambda I_n$, entonces $p_A(\lambda) I_n = (\det X) I_n = X \operatorname{adj}(X)$ en los polinomios de matrices $n \times n$ en $\lambda$, ahora especializamos $\lambda \to A$, obtenemos $p_A(A) = 0$.

Creo que esta demostración no está completa tal como está escrita y requiere al menos una línea más. El paso "especializamos $\lambda \to A$", tal como está escrito, se asemeja mucho a la "típica pero incorrecta" prueba del teorema de Cayley-Hamilton. El problema es que en este cálculo estamos trabajando, de forma equivalente, ya sea con matrices con entradas polinómicas $M_n(K[\lambda])$, o polinomios con coeficientes matriciales $M_n(K)[\lambda]$. Ingenuamente, "especializar $\lambda \to A$" significa aplicar algún tipo de homomorfismo de evaluación $M_n(K)[\lambda] \to M_n(K)$ enviando $\lambda$ a $A$. Pero esto no es un homomorfismo en general, y en particular no es multiplicativo, debido a la falta de conmutatividad. Entonces, explícitamente, si $f(\lambda) = \sum F_i \lambda^i \in M_n(K)[\lambda]$ y $g(\lambda) = \sum G_i \lambda^i \in M_n(K)[\lambda]$ son dos polinomios de matrices, e interpretamos "especializar $\lambda \to A$" como $f(A) = \sum F_i A^i \in M_n(K)$ y $g(A) = \sum G_i A^i \in M_n(K)$, entonces $f(A) g(A) \neq fg(A)$ en general, donde $fg$ se refiere al producto de polinomios de matrices (que implica tratar a $\lambda$ como central).

Una forma diferente de interpretar esta especialización es considerar en su lugar el subálgebra (conmutativa) $K[A] \subset M_n(K)$ generado por $A$, e interpretar la especialización como la aplicación del homomorfismo de evaluación $K[\lambda] \to K[A]$ a una matriz con coeficientes polinómicos para obtener una matriz en $M_n(K[A])$. Esta especialización es un homomorfismo, ¡pero no envía $X$ a $0$! Esto se aclara si escribimos $M_n(K[\lambda]) \cong M_n(K)[\lambda]$ explícitamente como un producto tensorial $M_n(K) \otimes K[\lambda]$, en cuyo caso

$$X(\lambda) = A \otimes 1 - I_n \otimes \lambda \in M_n(K) \otimes K[\lambda]$$

se está especializando a

$$X(A) = A \otimes 1 - I_n \otimes A \in M_n(K) \otimes K[A].$$

P1: ¿Estoy en lo correcto al afirmar que esta demostración está incompleta o al menos ambigua tal como está escrita?

Wikipedia parece explicar una forma de completar esta prueba, que describiría de la siguiente manera:

El punto es que en realidad tenemos un homomorfismo de evaluación para las matrices que aparecen en este argumento. Debido a que $X = A - \lambda I_n$ conmuta con su adjunta $\operatorname{adj}(X) = \text{adj}(A - \lambda I_n)$, $A$ conmuta con todos los coeficientes del polinomio de matriz $\operatorname{adj}(X)$ cuando se expanden en potencias de $\lambda$. Eso significa que este cálculo no está ocurriendo en todo $M_n$ sino en el centralizador más pequeño $Z_{M_n}(A) \subset M_n(K)$. Por lo tanto, podemos interpretar la identidad $p_A(\lambda) I_n = X \operatorname{adj}(X)$ como una identidad en $Z_{M_n}(A)[\lambda]$, y ahora realmente tenemos un homomorfismo de evaluación

$$Z_{M_n}(A)[\lambda] \ni f(\lambda) \mapsto f(A) \in Z_{M_n}(A)$$

porque $A$ conmuta con todos los coeficientes de los polinomios de matriz involucrados. Aplicar este homomorfismo de evaluación nos da una identidad

$$p_A(A) = (A - A) \operatorname{adj}(X(A)) = 0 \in Z_{M_n}(A)$$

como se deseaba (la notación $\operatorname{adj}(X(A))$ es un poco desafortunada pero no se me ocurrió nada mejor; esto significa tomar el polinomio de matriz $\operatorname{adj}(X) \in Z_{M_n}(K)[\lambda]$, luego evaluarlo en $A$). Tenga en cuenta que la matriz identidad en el LHS ha desaparecido; evaluamos el polinomio de matriz $p_A(\lambda) I_n \in Z_{M_n}(A)[\lambda]$ en $\lambda = A$ y obtenemos el producto ordinario $p_A(A) I_n = p_A(A) \in Z_{M_n}(A)$, en lugar del producto tensorial anterior. De manera similar, es por eso que la matriz identidad en $A - \lambda I_n$ ha desaparecido.

P2: ¿Es esta una finalización correcta del argumento de Victor Protsak o he entendido algo mal? ¿He complicado demasiado la situación o realmente es necesario decir todo esto?

Para ser claro, creo que esta prueba completada es una prueba bastante buena de Cayley-Hamilton, probablemente mi favorita. También me parece inusualmente confusa y llena de problemas tanto notacionales como conceptuales (entendí que no soy el único en esto según los comentarios en esa discusión de MO), por lo que quiero asegurarme de haber entendido lo que está sucediendo cuidadosamente, y en particular quiero tener claro dónde viven exactamente cada una de las expresiones en la prueba.

22voto

Chris Ballance Puntos 17329

Esta demostración de una sola línea era bien conocida por autores de textos de álgebra o álgebra lineal alrededor de mediados de la década de 1950. Consulta Modern Higher Algebra de Abraham Adrian Albert (1937), Vectors and Matrices de Cyrus Colton MacDuffee (1943) o The Theory of Matrices de Felix Gantmacher (1959) para ejemplos. Sin embargo, a veces sus sutilezas no están bien explicadas. En mi opinión, el libro de MacDuffee ofrece la explicación más clara que es accesible para principiantes.

Sea $M$ un anillo (posiblemente no conmutativo) con unidad. Dado $h(x)=\sum_{k=0}^n c_kx^k\in M[x]$ y $\alpha\in M$, los valores de $\sum_{k=0}^n c_k\alpha^k$ y $\sum_{k=0}^n \alpha^kc_k$ son en general diferentes. Por lo tanto, es necesario tener cuidado cuando hablamos de la "evaluación de $h$ en $\alpha$". Escribamos \begin{align*} h(\alpha \text{ desde la izquierda})&=\sum_{k=0}^n \alpha^kc_k,\\ h(\alpha \text{ desde la derecha})&=\sum_{k=0}^n c_k\alpha^k.\\ \end{align*}

Ahora supongamos que $f,g,h\in M[x]$ son tales que $fg=h$. Cuando $M$ no es conmutativo, dado un elemento arbitrario $\alpha\in M$, en general no tenemos $f(\alpha)g(\alpha)=h(\alpha)$. Es decir, la factorización de polinomios no sobrevive a la evaluación. Sin embargo, tenemos la siguiente versión unilateral del teorema del factor: \begin{cases} f(\alpha \text{ desde la izquierda})=0 \implies h(\alpha \text{ desde la izquierda})=0;\\ g(\alpha \text{ desde la derecha})=0 \implies h(\alpha \text{ desde la derecha})=0.\\ \end{cases} La demostración de una sola línea de Cayley-Hamilton es simplemente una consecuencia directa de esto.

Más específicamente, comenzamos con $$ \operatorname{adj}(xI-A)(xI-A)=\det(xI-A)I,\tag{1} $$ donde $A$ es una matriz $n\times n$ sobre un anillo conmutativo $R$. Aquí $\operatorname{adj}(xI-A),\,xI-A$ y $\det(xI-A)I$ son elementos de $M_n(R[x])$, es decir, son matrices con coeficientes polinomiales. Ahora, cada matriz con coeficientes polinomiales puede identificarse con un polinomio con coeficientes matriciales, es decir, $M_n(R[x])$ puede identificarse con $M_n(R)[x]$ de manera obvia. Si denotamos la entrada $(i,j)$-ésima de $\operatorname{adj}(xI-A)$ por $\sum_{k=0}^n f_k^{(ij)}x^k$, entonces $\operatorname{adj}(xI-A)$ se puede identificar con el polinomio $f(x)=\sum_{k=0}^n F_kx^k$ con coeficientes matriciales $F_0,F_1,\ldots,F_n$ donde $F_k=\big(f_k^{(ij)}\big)\in M_n(R)$. Del mismo modo, si escribimos $\det(xI-A)=\sum_{k=0}^nc_kx^k$, entonces $\det(xI-A)I$ se puede identificar con el polinomio $h(x)= \sum_{k=0}^n(c_k\color{red}{I})x^k$ (con coeficientes matriciales $c_0I,\,c_1I,\,\ldots,c_nI$). La identidad $(1)$ ahora se convierte en $f(x)g(x)=h(x)$, donde $g(x)=Ix-A$ .

Claramente, tenemos $g(A \text{ desde la derecha})=IA-A=0$. Por lo tanto, por el teorema del factor (con $M=M_n(R)$), también tenemos $h(A \text{ desde la derecha})=0$, y este es el teorema de Cayley-Hamilton. (Dado que los coeficientes de $h$ son múltiplos escalares de la matriz identidad, en realidad $h(A \text{ desde la derecha})=h(A \text{ desde la izquierda})$ y simplemente podemos escribir $h(A)=0$.)

Nota que en la presentación de la prueba de MacDuffee, la especialización de $x$ a $A$ en $f,g$ o $h$ es completamente inequívoca. Siempre nos referimos a la sustitución desde la derecha (aunque esta convención no es importante para $h$). ¡No depende de la existencia de ningún homomorfismo de evaluación! El mapa de evaluación es simplemente 'sustitución' en un sentido ingenuo. Su argumento tampoco depende de la conmutatividad de $A$ con $\operatorname{adj}(xI-A)$. En contraste, esta conmutatividad se utiliza en Linear Algebra de Ichiro Satake (1975) (consultar q4343699 para obtener una copia de su demostración) para confinar implícitamente la factorización de $h$ sobre un subanillo que centraliza $A$, de modo que la factorización sobreviva a la evaluación en $A$ y se pueda aplicar la forma usual del teorema del factor. Si el enfoque de MacDuffee es mejor que el de Satake es cuestión de gusto. Personalmente prefiero el enfoque de MacDuffee porque creo que no deja margen para la confusión.

En cualquier caso, el mérito de esta demostración es obvio. Ofrece una razón muy simple de por qué se cumple el teorema: todo se reduce a que $Ix-A$ es un factor (desde la izquierda o la derecha) de $h$.

12voto

Matt Dawdy Puntos 5479

¡Veo que me acabo de perder un comentario en la discusión de MO donde Víctor aclara:

Sea $S$ el conmutante de $A$ en $M_n$, entonces $S[\lambda] \subset M_n[\lambda]$ contiene $X = A - \lambda I_n$ y $\operatorname{adj}(X)$ y spec'n es un homomorfismo único de anillos $\phi : S[\lambda] \to M_n$ que es identidad en $S$ y $\phi(\lambda) = A$.

¡Lo siento, Víctor! Parece que mi comprensión de la situación es precisa, y uno debe tomar nota de la conmutatividad de $A$ con $\operatorname{adj}(X)$ para finalizar.

Me gustaría dejar esta pregunta como una referencia buscable sobre este tema; espero que esté bien. También me interesa esta otra afirmación que hace Víctor sobre la densidad de Zariski, pero creo que esa debería ser una pregunta separada (edit: he preguntado sobre esto aquí).

¡Otros puntos de vista y más aclaraciones siguen siendo bienvenidos!

3voto

janmarqz Puntos 4027

Permítanme intentar esto:

Si $X{\rm adj} X=(\det X)1\!\!1$ es válido para cada matriz cuadrada entonces para $X=t1\!\!1-A$ tenemos $$(t 1\!\!1-A){\rm adj}(t1\!\!1-A)=\det (t1\!\!1-A)1\!\!1.$$ Siendo ${\rm adj}(t1\!\!1-A)$ una matriz de grado $\le n-1$ podemos establecer $${\rm adj}(t1\!\!1-A)=B_0+B_1t+B_2t^2+...+B_{n-1}t^{n-1}$$ para algunas matrices cuadradas $B_i$. Entonces obtenemos \begin{eqnarray*} (t1\!\!1-A)(B_0+B_1t+B_2t^2+...+B_{n-1}t^{n-1}) &=&(a_0+a_1t+...+a_nt^n)1\!\!1,\\ \\ \mbox{o equivalentemente}&&\\ \\ -AB_0+ %(B_0-AB_1)t+ ...+(B_{n-2}-AB_{n-1})t^{n-1}+B_{n-1}t^n&=&a_01\!\!1+...+a_nt^n1\!\!1 \end{eqnarray*} Esto implica \begin{eqnarray*} a_01\!\!1&=&-AB_0,\\ a_11\!\!1&=&B_0-AB_1,\\ a_21\!\!1&=&B_1-AB_2,\\ &\vdots& \\ a_{n-1}1\!\!1&=&B_{n-2}-AB_{n-1},\\ a_n1\!\!1 &=&B_{n-1}. \end{eqnarray*} Vamos a multiplicar por $1\!\!1$ el 1ero, por $A$ el 2do, por $A^2$ el 3ro y así sucesivamente para obtener \begin{eqnarray*} a_01\!\!1&=&-AB_0,\\ a_1A&=&AB_0-A^2B_1,\\ a_1A^2&=&A^2B_1-A^3B_2,\\ &\vdots& \\ a_{n-1}A^{n-1}&=&A^{n-1}B_{n-2}-A^nB_{n-1},\\ a_nA^n&=&A^nB_{n-1}. \end{eqnarray*} Si sumamos ambas columnas vemos: $$a_01\!\!1+a_1A+a_2A^2+...+a_nA^n={\bf 0}$$ $\Box$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X