Básicamente, la condición en el lema, el que es suficiente para darle diagonalisability (y, como resulta que es en realidad equivalente), se reduce a la siguiente:
$$\operatorname{ker}(B - \lambda I)^2 = \operatorname{ker}(B - \lambda I),$$
donde el $\operatorname{ker}$ es el kernel (o nullspace) de la matriz. Para ver esto, considere la posibilidad de $x$ en el enunciado del lema. Las dos declaraciones, cuando se sustituye en su totalidad suman a$(B - \lambda I)^2 x = 0$, $x \in \operatorname{ker}(B - \lambda I)^2$. El lema requiere que $(B - \lambda I)x = 0$ en este caso, que es, $x \in \operatorname{ker}(B - \lambda I)$. Por lo tanto, $\operatorname{ker}(B - \lambda I)^2 \subseteq \operatorname{ker}(B - \lambda I)$. El otro subconjunto de inclusión es siempre cierto, y fácil de mostrar.
¿Por qué esta condición implica diagonalisability? Bien, independientemente de la matriz $B$, tenemos la siguiente cadena de la inclusión del conjunto:
$$\lbrace 0 \rbrace \subseteq \operatorname{ker}(B - \lambda I) \subseteq \operatorname{ker}(B - \lambda I)^2 \subseteq \operatorname{ker}(B - \lambda I)^3 \subseteq \ldots$$
Esto es sencillo de probar. Básicamente, si se aplican $(B - \lambda I)^i$ a un vector y obtenga $0$, después de aplicar el $(B - \lambda I)$ una vez más va a enviar el vector de a $0$. Un poco menos trivial demostrar es que una vez $\operatorname{ker}(B - \lambda I)^i = \operatorname{ker}(B - \lambda I)^{i+1}$, luego
$$\operatorname{ker}(B - \lambda I)^i = \operatorname{ker}(B - \lambda I)^{i+1} = \operatorname{ker}(B - \lambda I)^{i+2} = \ldots$$
Es decir, una vez que el kernel deja de crecer en un paso, no deja de crecer para el bien. Una vez que el kernel deja de crecer, esta es la generalización en el espacio propio de $B$ con respecto al $\lambda$ si $\lambda$ es un autovalor (si $\lambda$ no lo está, entonces, todos los anteriores núcleos son triviales). No es demasiado difícil de probar esto, pero lo voy a dejar fuera de la respuesta (voy a ser feliz de proporcionar la prueba si quieres, pero es un buen ejercicio). Así tenemos,
$$\lbrace 0 \rbrace \subset \operatorname{ker}(B - \lambda I) \subset \operatorname{ker}(B - \lambda I)^2 \subset \ldots \subset \operatorname{ker}(B - \lambda I)^i = \operatorname{ker}(B - \lambda I)^{i+1} = \ldots$$
Pero, ¿qué hace nuestra condición implica? Esto significa que tenemos que llegar a la igualdad en $i = 1$. Por lo tanto, tenemos
$$\lbrace 0 \rbrace \subset \operatorname{ker}(B - \lambda I) = \operatorname{ker}(B - \lambda I)^2 = \operatorname{ker}(B - \lambda I)^3 = \ldots$$
La generalización en el espacio propio es, por tanto,$\operatorname{ker}(B - \lambda I)$, que es, literalmente, la (no generalizada) subespacio propio de $B$ correspondiente al autovalor $\lambda$. Cada autovector generalizado es una (no generalizada) autovector.
Ahora, la suma directa de subespacios propios a la totalidad de $\mathbb{C}^n$. Otra forma de ver esto es buscar en una arbitraria Jordania. (Ninguno de estos hechos que pueden elegantemente probar aquí.) De cualquier manera, usted puede formar una base de vectores propios generalizados, pero ya que cada vector propio generalizado es un autovector, puede formar una base de vectores propios. Es fácil ver que el cambio de $B$ en términos de esta base de vectores propios hará $B$ diagonal, $B$ es de hecho diagonalisable.
Espero que ayude!