56 votos

Multiplicación de matrices: interpretación y comprensión del proceso

Acabo de ver la primera mitad de la tercera clase de Gilbert Strang en el curso abierto con el enlace:

http://ocw.mit.edu/courses/mathematics/18-06-linear-algebra-spring-2010/video-lectures/

Parece que con una multiplicación de matrices $AB=C$, las entradas como escalares se forman a partir de los cálculos del producto punto de las filas de $A$ con las columnas de $B$. Interpretaciones visuales de la mecánica de fuerzas superpuestas vienen a la mente de inmediato porque esa es la fuente del producto punto (producto interno).

Veo las filas de $C$ como el producto punto de las filas de $B$, con el producto punto de una fila particular de $A$. Similar a lo anterior y es fácil ver esto a partir de las entradas individuales en la matriz $C para ver cuáles elementos cambian para dar lugar a qué productos punto.

Para entender la multiplicación de matrices hay una interpretación geométrica, que la multiplicación de matrices es un cambio en el sistema de referencia ya que la matriz $B$ se puede ver como un operador de transformación para rotación, escalamiento, reflexión y sesgo. Es fácil ver esto construyendo ejemplos de matrices $B$ con estos efectos en $A. Esta descomposición es un argumento sólido y es muy convincente de su generalidad. Esta interpretación es fuerte pero no tan suave porque encontraría más suave una explicación que sería una interpretación que empieza desde el producto punto de vectores y utilizando esto para explicar el proceso y la interpretación de los resultados (uno que es un poco más fácil de ver sin muchos ejemplos de ingresar números y ver qué sale, que los estudiantes atraviesan).

Puedo esperar que mantenerse en los productos punto a lo largo de la explicación y LUEGO ver cómo estos pueden verse para producir escalados, rotaciones y sesgados sería mejor. Pero, después de algunos ejemplos gráficos simples, vi que esto no funciona ya que el orden de las columnas en la matriz $B$ es importante y no se muestra en la representación gráfica.

La mejor explicación que puedo encontrar está en Yahoo Answers. Es convincente pero un poco decepcionante (explica por qué este enfoque preserva la "composición de transformaciones lineales"; gracias @Arturo Magidin). Entonces la pregunta es: ¿Por qué ocurre la multiplicación de matrices como ocurre, y hay buenos ejemplos prácticos para respaldarlo? Preferiblemente no a través de rotaciones/escalados/sesgos (gracias @lhf).

7 votos

¿Cuál es tu pregunta?

15 votos

La multiplicación de matrices se define de la manera en que se hace porque entonces coincide con la composición de transformaciones lineales. Hay otras multiplicaciones de matrices (por ejemplo, el producto de Kronecker, que se realiza entrada por entrada), pero la gran ventaja de la multiplicación de matrices "usual" es que corresponde a la composición de transformaciones lineales.

0 votos

Corrección: la entrada por entrada es el producto de Hadamard; el producto de Kronecker es otro tipo diferente de producto de matrices.

128voto

Lorin Hochstein Puntos 11816

Primero, algunos comentarios. Hay varias confusiones graves en lo que escribes. Por ejemplo, en el tercer párrafo, habiendo visto que las entradas de $AB$ se obtienen tomando el producto punto de la fila correspondiente de $A$ con la columna de $B$ , usted escribe que ve $AB$ como un producto punto de filas de $B$ y filas de $A$ . No lo es.

Para otro ejemplo, hablas de que la multiplicación de matrices "ocurre". Las matrices no andan sueltas en las selvas ocultas del Amazonas, donde las cosas "suceden" sin seres humanos. La multiplicación de matrices es definido una determinada manera, y entonces la definición es por qué la multiplicación de matrices se hace de la manera en que se hace. Se puede preguntar por qué la multiplicación de matrices se define de la forma en que se define, y si hay otras formas de definir una "multiplicación" en las matrices (sí, las hay; lea más adelante), pero esa es una cuestión completamente distinta. "¿Por qué la multiplicación de matrices ocurre de la manera en que lo hace?" es bastante incoherente en su cara.

Otro ejemplo de confusión es que no toda matriz corresponde a un "cambio de sistema de referencia". Esto sólo es cierto, visto desde el ángulo correcto, para invertible matrices.

Multiplicación matricial estándar. La multiplicación de matrices se define así porque corresponde a la composición de transformaciones lineales. Aunque esto es válido en una generalidad extremadamente grande, vamos a centrarnos en las transformaciones lineales $T\colon \mathbb{R}^n\to\mathbb{R}^m$ . Dado que las transformaciones lineales satisfacen $T(\alpha\mathbf{x}+\beta\mathbf{y}) = \alpha T(\mathbf{x})+\beta T(\mathbf{y})$ , si se conoce el valor de $T$ en cada uno de $\mathbf{e}_1,\ldots,\mathbf{e}_n$ , donde $\mathbf{e}^n_i$ es la (columna) $n$ -vector que tiene $0$ s en cada coordenada excepto el $i$ coordenada donde tiene un $1$ , entonces se conoce el valor de $T$ en cada uno de los vectores de $\mathbb{R}^n$ .

Así que para describir el valor de $T$ Sólo tengo que decirte lo que $T(\mathbf{e}_i)$ es. Por ejemplo, podemos tomar $$T(\mathbf{e}_i) = \left(\begin{array}{c}a_{1i}\\a_{2i}\\ \vdots\\ a_{mi}\end{array}\right).$$ Entonces, como $$\left(\begin{array}{c}k_1\\k_2\\ \vdots\\k_n\end{array}\right) = k_1\mathbf{e}_1 + \cdots +k_n\mathbf{e}_n,$$ tenemos $$T\left(\begin{array}{c}k_1\\k_2\\ \vdots\\ k_n\end{array}\right) = k_1T(\mathbf{e}_1) + \cdots +k_nT(\mathbf{e}_n) = k_1\left(\begin{array}{c}a_{11}\\a_{21}\\ \vdots\\a_{m1}\end{array}\right) + \cdots + k_n\left(\begin{array}{c}a_{1n}\\a_{2n}\\ \vdots\\ a_{mn}\end{array}\right).$$

Es muy fructífero, pues, seguir la pista de los $a_{ij}$ de alguna manera, y dada la expresión anterior, guardamos la pista de ellos en una matriz, que no es más que una matriz rectangular de números reales. Entonces pensamos en $T$ como si estuviera "dada" por la matriz $$\left(\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{array}\right).$$ Si queremos hacer un seguimiento de $T$ de esta manera, entonces para un vector arbitrario $\mathbf{x} = (x_1,\ldots,x_n)^t$ (el ${}^t$ significa "transponer"; convertir cada fila en una columna, cada columna en una fila), entonces tenemos que $T(\mathbf{x})$ corresponde a: $$\left(\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{array}\right) \left(\begin{array}{c} x_1\\x_2\\ \vdots\\ x_n\end{array}\right) = \left(\begin{array}{c} a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n\\ a_{21}x_1 + a_{22}x_2 + \cdots + a_{2n}x_n\\ \vdots\\ a_{m1}x_1 + a_{m2}x_2 + \cdots + a_{mn}x_n \end{array}\right).$$

¿Qué pasa cuando tenemos dos transformaciones lineales, $T\colon \mathbb{R}^n\to\mathbb{R}^m$ y $S\colon\mathbb{R}^p\to\mathbb{R}^n$ ? Si $T$ corresponde como en el caso anterior a un determinado $m\times n$ matriz, entonces $S$ corresponderá igualmente a un determinado $n\times p$ matriz, digamos $$\left(\begin{array}{cccc} b_{11} & b_{12} & \cdots & b_{1p}\\ b_{21} & b_{22} & \cdots & b_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ b_{n1} & b_{n2} & \cdots & b_{np} \end{array}\right).$$ ¿Qué es? $T\circ S$ ? En primer lugar, es una transformación lineal porque la composición de transformaciones lineales da lugar a una transformación lineal. En segundo lugar, va de $\mathbb{R}^p$ a $\mathbb{R}^m$ por lo que debería corresponder a un $m\times p$ matriz. ¿Qué matriz? Si dejamos que $\mathbf{f}_1,\ldots,\mathbf{f}_p$ sea la (columna) $p$ -vectores dados por dejar $\mathbf{f}_j$ tienen $0$ s en todas partes y un $1$ en el $j$ entonces la matriz anterior nos dice que $$S(\mathbf{f}_j) = \left(\begin{array}{c}b_{1j}\\b_{2j}\\ \vdots \\b_{nj}\end{array}\right) = b_{1j}\mathbf{e}_1+\cdots + b_{nj}\mathbf{e}_n.$$

Entonces, ¿qué es $T\circ S(\mathbf{f}_j)$ ? Esto es lo que va en el $j$ columna de la matriz que corresponde a $T\circ S$ . Evaluando, tenemos: \begin {align*} T \circ S( \mathbf {f}_j) &= T \Bigl ( S( \mathbf {f}_j) \Bigr ) \\ &= T \Bigl ( b_{1j} \mathbf {e}_1 + \cdots + b_{nj} \mathbf {e}_n \Bigr ) \\ &= b_{1j} T( \mathbf {e}_1) + \cdots + b_{nj}T( \mathbf {e}_n) \\ &= b_{1j} \left ( \begin {array}{c} a_{11} \\ a_{21} \\ \vdots\\ a_{m1} \end {array} \right ) + \cdots + b_{nj} \left ( \begin {array}{c} a_{1n} \\a_ {2n} \\ \vdots\\ a_{mn} \end {array} \right ) \\ &= \left ( \begin {array}{c} a_{11}b_{1j} + a_{12}b_{2j} + \cdots + a_{1n}b_{nj} \\ a_{21}b_{1j} + a_{22}b_{2j} + \cdots + a_{2n}b_{nj} \\ \vdots\\ a_{m1}b_{1j} + a_{m2}b_{2j} + \cdots + a_{mn}b_{nj} \end {array} \right ). \end {align*} Así que si queremos escribir la matriz que corresponde a $T\circ S$ entonces el $(i,j)$ a entrada será $$a_{i1}b_{1j} + a_{i2}b_{2j} + \cdots + a_{in}b_{nj}.$$ Así que definir la "composición" o producto de la matriz de $T$ con la matriz de $S$ para ser precisamente la matriz de $T\circ S$ . Podemos hacer esta definición sin referencia a las transformaciones lineales que le dieron origen: si la matriz de $T$ es $m\times n$ con entradas $a_{ij}$ (llamémoslo $A$ ); y la matriz de $S$ es $n\times p$ con entradas $b_{rs}$ (llamémoslo $B$ ), entonces la matriz de $T\circ S$ (llamémoslo $A\circ B$ o $AB$ ) es $m\times p$ y con entradas $c_{k\ell}$ , donde $$c_{k\ell} = a_{k1}b_{1\ell} + a_{k2}b_{2\ell} + \cdots + a_{kn}b_{n\ell}$$ por definición . ¿Por qué? Porque entonces la matriz de la composición de dos funciones es precisamente el producto de las matrices de las dos funciones. Podemos trabajar con las matrices directamente sin tener que pensar en las funciones.

De hecho, no hay nada sobre el producto punto que esté en juego en esta definición. Es esencialmente por casualidad que el $(i,j)$ se puede obtener como un producto punto de algo . De hecho, el $(i,j)$ se obtiene como la producto de la matriz de la $1\times n$ matriz compuesta por el $i$ La fila de $A$ con el $n\times 1$ matriz compuesta por el $j$ columna de $B$ . Sólo si se transpone esta columna se puede tratar de interpretar esto como un producto punto. (De hecho, la visión moderna es al revés : nosotros definir el producto punto de dos vectores como un caso especial de un producto interno más general, llamado producto interno de Frobenius, que se define en términos de multiplicación de matrices, $\langle\mathbf{x},\mathbf{y}\rangle =\mathrm{trace}(\overline{\mathbf{y}^t}\mathbf{x})$ ).

Y como el producto de matrices corresponde a la composición de transformaciones lineales, todas las buenas propiedades que tiene la composición de funciones lineales serán automáticamente también es cierto para el producto de matrices, porque los productos de las matrices no son más que un dispositivo de contabilidad para llevar la cuenta de la composición de las transformaciones lineales . Así que $(AB)C = A(BC)$ porque la composición de funciones es asociativa. $A(B+C) = AB + AC$ porque la composición de las transformaciones lineales se distribuye sobre las sumas de las transformaciones lineales (las sumas de las matrices se definen entrada por entrada porque eso coincide precisamente con la suma de transformaciones lineales). $A(\alpha B) = \alpha(AB) = (\alpha A)B$ porque la composición de transformaciones lineales se comporta así con la multiplicación escalar (los productos de matrices por escalares se definen así precisamente para que correspondan a la operación con transformaciones lineales).

Así que definir producto de matrices explícitamente para que coincida con la composición de las transformaciones lineales. Realmente no hay ninguna razón oculta más profunda. Parece un poco incongruente, tal vez, que una razón tan simple resulte en una fórmula tan complicada, pero así es la vida.

Otra razón por la que es un poco erróneo tratar de entender el producto de la matriz en términos del producto de puntos es que el producto de la matriz lleva la cuenta de todo la información que hay sobre las dos composiciones, pero el producto punto pierde mucha información sobre los dos vectores en cuestión. Sabiendo que $\mathbf{x}\cdot\mathbf{y}=0$ sólo le dice que $\mathbf{x}$ y $\mathbf{y}$ son perpendiculares, realmente no te dice nada más. Hay mucha pérdida de información en el producto punto, y tratar de explicar el producto de la matriz en términos del producto punto requiere que "recuperemos" toda esta información perdida de alguna manera. En la práctica, esto significa seguir toda la información original, lo que hace que intentar meter el producto de puntos con calzador en la explicación sea innecesario, porque ya tienen toda la información para conseguir el producto directamente.

Ejemplos que no son sólo "cambios en el sistema de referencia". Tenga en cuenta que cualquier La transformación lineal corresponde a una matriz. Pero las únicas transformaciones lineales que pueden considerarse como "cambios de perspectiva" son las transformaciones lineales que mapean $\mathbb{R}^n$ a sí mismo, y que son uno a uno y sobre. Hay lotes de transfomaciones lineales que no son así. Por ejemplo, la transformación lineal $D$ de $\mathbb{R}^3$ a $\mathbb{R}^2$ definido por $$D\left(\begin{array}{c} a\\b\\c\end{array}\right) = \left(\begin{array}{c}b\\2c\end{array}\right)$$ no es un "cambio de sistema de referencia" (porque muchos vectores distintos de cero van a cero, pero no hay manera de "cambiar de perspectiva" y empezar a ver un vector distinto de cero como cero), pero es una transformación lineal. La matriz correspondiente es $2\times 3$ y es $$\left(\begin{array}{cc} 0 & 1 & 0\\ 0 & 0 & 2 \end{array}\right).$$ Consideremos ahora la transformación lineal $U\colon\mathbb{R}^2\to\mathbb{R}^2$ dado por $$U\left(\begin{array}{c}x\\y\end{array}\right) = \left(\begin{array}{c}3x+2y\\ 9x + 6y\end{array}\right).$$ De nuevo, esto no es un "cambio de perspectiva", porque el vector $\binom{2}{-3}$ se asigna a $\binom{0}{0}$ . Tiene una matriz, $2\times 2$ que es $$\left(\begin{array}{cc} 3 & 2\\ 9 & 6 \end{array}\right).$$ Así que la composición $U\circ T$ tiene matriz: $$\left(\begin{array}{cc} 3 & 2\\ 9 & 6 \end{array}\right) \left(\begin{array}{ccc} 0 & 1 & 0\\ 0 & 0 & 2 \end{array}\right) = \left(\begin{array}{ccc} 0 & 3 & 4\\ 0 & 9 & 12 \end{array}\right),$$ que me dice que $$U\circ T\left(\begin{array}{c}x\\y\\z\end{array}\right) = \left(\begin{array}{c} 3y + 4z\\ 9y+12z\end{array}\right).$$

Otros productos de la matriz. ¿Hay otras formas de definir el producto de dos matrices? Claro, está la Producto de Hadamard que es lo "obvio": puedes multiplicar dos matrices del mismo tamaño (y sólo del mismo tamaño), y lo haces entrada a entrada, de la misma manera que sumas dos matrices. Esto tiene algunas buenas propiedades, pero no tiene nada que ver con las transformaciones lineales. Existe la Producto Kronecker que toma un $m\times n$ matriz por un $p\times q$ y da una $mp\times nq$ matriz. Ésta está asociada a la producto tensorial de las transformaciones lineales. Se definen de forma diferente porque están pensadas para modelar otras operaciones que se hacen con matrices o vectores.

14 votos

Wow. Me hubiera gustado dar +2 rep por esto, pero no es posible...

6 votos

Una respuesta increíble. esto es mejor que algunos libros de texto o recursos de internet.

1 votos

¿Es una combinación lineal también una transformación lineal?

14voto

Matt Dawdy Puntos 5479

Creo que parte del problema que la gente tiene al acostumbrarse a las transformaciones lineales vs. matrices es que probablemente nunca han visto un ejemplo de una transformación lineal definida sin hacer referencia a una matriz o una base. Entonces aquí tienes un ejemplo. Sea $V$ el espacio vectorial de polinomios reales de grado a lo sumo $3$, y sea $f : V \to V$ la derivada.

$V$ no viene equipado con una elección natural de base. Podrías argumentar que $\{ 1, x, x^2, x^3 \}$ es natural, pero es solo conveniente: no hay razón para privilegiar esta base sobre $\{ 1, (x+c), (x+c)^2, (x+c)^3 \}$ para cualquier $c \in \mathbb{R}$ (y, dependiendo de cuáles sean mis definiciones, es literalmente imposible hacerlo). Más generalmente, $\{ a_0(x), a_1(x), a_2(x), a_3(x) \}$ es una base para cualquier colección de polinomios $a_i$ de grado $i$.

$V$ tampoco viene equipado con una elección natural de producto punto, así que no hay manera de incluir eso en la discusión sin hacer una elección arbitraria. Realmente es solo un espacio vectorial equipado con una transformación lineal.

Dado que queremos hablar sobre composición, escribamos una segunda transformación lineal. $g : V \to V$ enviará un polinomio $p(x)$ al polinomio $p(x + 1)$. Observa que, una vez más, no necesito referirme a una base para definir $g.

Luego, la composición abstracta $gf : V \to V$ está bien definida; envía un polinomio $p(x)$ al polinomio $p'(x + 1)$. No necesito referirme a una base o multiplicar matrices para ver esto; todo lo que estoy haciendo es componer dos funciones.

Ahora hagamos todo en una base particular para ver que obtenemos la misma respuesta utilizando la definición correcta y natural de multiplicación de matrices. Utilizaremos la base $ \{ 1, x, x^2, x^3 \}$. En esta base $f$ tiene la matriz

$$\left[ \begin{array}{cccc} 0 & 1 & 0 & 0 \\\ 0 & 0 & 2 & 0 \\\ 0 & 0 & 0 & 3 \\\ 0 & 0 & 0 & 0 \end{array} \right]$$

y $g$ tiene la matriz

$$\left[ \begin{array}{cccc} 1 & 1 & 1 & 1 \\\ 0 & 1 & 2 & 3 \\\ 0 & 0 & 1 & 3 \\\ 0 & 0 & 0 & 1 \end{array} \right].$$

Ahora te animo a repasar todas las generalidades en el post de Arturo en este ejemplo para verificar que $gf$ tiene la matriz que se supone que debe tener.

1 votos

¿Cómo obtuviste que $f$ corresponde a esa matriz? Todo lo demás es excelente

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X