La razón por la que necesitamos el lema es que de $P(t)=b(t)(A-tI)$ uno directamente no se puede concluir que $P(A)=b(A)(A-AI)$.
Si $R$ es un conmutativa anillo, entonces existe un natural mapa de $R[t]\to R^R$ que es un anillo de homomorphism (nosotros dotar $R^R$ con el pointwise estructura de anillo: $(f+g)(r) = f(r)+g(r)$, e $fg(r) = f(r)g(r)$ por cada $r\in R$). Si $p(t)=q(t)s(t)$, entonces para cada a $r\in R$ que $p(r)=q(r)s(r)$.
Pero esto no funciona si $R$ no es conmutativa. Por ejemplo, tomando $p(t) = at$, $q(t) = t$ y $s(t)=a$, usted tiene $p(t)=q(t)s(t)$ $R[t]$ (desde $t$ es central en $R[t]$, incluso cuando se $R$ no es conmutativa), sino $p(r) = ar$ mientras $q(r)s(r) = ra$. Así que usted consigue $p(r)=q(r)s(r)$ si y sólo si $a$ $r$ viaje. Por lo tanto, sin duda se puede definir un mapa de $\psi\colon R[t]\to R^R$ por
$$\psi(a_0+a_1t+\cdots+a_nt^n)(r) = a_0 + a_1r + \cdots + a_nr^n,$$
este mapa no es un anillo de homomorphism cuando el anillo no es conmutativa. Esta es la situación que tenemos aquí, donde el anillo $R$ es el anillo de $n\times n$ matrices de más de $\mathbb{K}$, que no es conmutativa cuando $n\gt 1$. En particular, de $P(t) = B(t)(A-tI)$ uno no puede simplemente a la conclusión de que $P(A)=B(A)(A-AI)$. Esto supone implícitamente que el mapa $M_n(\mathbb{K})[t]\to M_n(\mathbb{K})^{M_n(\mathbb{K})}$ es multiplicativo, que no es en este caso.
Si su $A$ pasa a ser central en $M_n(\mathbb{K})$, entonces es cierto que la inducida por el mapa de $M_n(\mathbb{K})[t]\to M_n(\mathbb{K})$ es un homomorphism. Pero entonces se estaría asumiendo que su $A$ es un escalar múltiples de la identidad. También sería cierto si los coeficientes del polinomio $b(t)$ centralizar $A$, pero no está suponiendo que. Lo que no es necesario demostrar que en este caso ha $P(A)=b(A)(A-AI)$, ya que de ello no se sigue de lo general (la forma que lo haría en un conmutativa).
P. S. De hecho, este es el punto sutil donde la prueba de que un polinomio sobre un campo de grado $n$ tiene más de $n$ raíces se rompe para sesgar campos/división de los anillos. Si $K$ es un anillo de división, entonces el algoritmo de la división se tiene para polinomios con coeficientes más de $K$, por lo que uno puede mostrar que para cada $p(t)\in K[t]$ y $a(t)\in K[t]$, $a(t)\neq 0$, existen únicas $q(t)$ $r(t)$ tal que $p(t)=q(t)a(t) + r(t)$ $r(t)=0$ o $\deg(r)\lt \deg(a)$. A partir de esto, podemos deducir que por cada polinomio $p(t)$, y para cada $a\in K$, podemos escribir $p(t) = q(t)(t-a) + r$ donde $r\in K$. Pero la prueba de que el Resto y del Factor de Teoremas ya no va, porque no podemos ir de$p(t)=q(t)(t-a)+r$$p(a)=q(a)(a-a)+r$; y usted no puede obtener la recursividad argumento a trabajar, porque de $p(t)=q(t)(t-a)$, e $p(b)=0$$b\neq a$, no se puede deducir que $q(b)=0$. Por ejemplo, en el real cuaterniones, tenemos $p(t)=t^2+1=(t+i)(t-i)$, pero $p(j)=j^2+1\neq 2k = ij-ji = (j+i)(j-i)$. Recuerdo que cuando me enteré de los correspondientes teoremas para el polinomio de anillos, el profesor nos desafía a identificar a todos los de campo axiomas utilizados en las pruebas del Resto y del Factor Teorema; ninguno de nosotros vio el uso de la conmutatividad en la evaluación del mapa.