Primero, algunos comentarios. Hay varias confusiones graves en lo que escribes. Por ejemplo, en el tercer párrafo, habiendo visto que las entradas de $AB$ se obtienen tomando el producto punto de la fila correspondiente de $A$ con la columna de $B$ , usted escribe que ve $AB$ como un producto punto de filas de $B$ y filas de $A$ . No lo es.
Para otro ejemplo, hablas de que la multiplicación de matrices "ocurre". Las matrices no andan sueltas en las selvas ocultas del Amazonas, donde las cosas "suceden" sin seres humanos. La multiplicación de matrices es definido una determinada manera, y entonces la definición es por qué la multiplicación de matrices se hace de la manera en que se hace. Se puede preguntar por qué la multiplicación de matrices se define de la forma en que se define, y si hay otras formas de definir una "multiplicación" en las matrices (sí, las hay; lea más adelante), pero esa es una cuestión completamente distinta. "¿Por qué la multiplicación de matrices ocurre de la manera en que lo hace?" es bastante incoherente en su cara.
Otro ejemplo de confusión es que no toda matriz corresponde a un "cambio de sistema de referencia". Esto sólo es cierto, visto desde el ángulo correcto, para invertible matrices.
Multiplicación matricial estándar. La multiplicación de matrices se define así porque corresponde a la composición de transformaciones lineales. Aunque esto es válido en una generalidad extremadamente grande, vamos a centrarnos en las transformaciones lineales $T\colon \mathbb{R}^n\to\mathbb{R}^m$ . Dado que las transformaciones lineales satisfacen $T(\alpha\mathbf{x}+\beta\mathbf{y}) = \alpha T(\mathbf{x})+\beta T(\mathbf{y})$ , si se conoce el valor de $T$ en cada uno de $\mathbf{e}_1,\ldots,\mathbf{e}_n$ , donde $\mathbf{e}^n_i$ es la (columna) $n$ -vector que tiene $0$ s en cada coordenada excepto el $i$ coordenada donde tiene un $1$ , entonces se conoce el valor de $T$ en cada uno de los vectores de $\mathbb{R}^n$ .
Así que para describir el valor de $T$ Sólo tengo que decirte lo que $T(\mathbf{e}_i)$ es. Por ejemplo, podemos tomar $$T(\mathbf{e}_i) = \left(\begin{array}{c}a_{1i}\\a_{2i}\\ \vdots\\ a_{mi}\end{array}\right).$$ Entonces, como $$\left(\begin{array}{c}k_1\\k_2\\ \vdots\\k_n\end{array}\right) = k_1\mathbf{e}_1 + \cdots +k_n\mathbf{e}_n,$$ tenemos $$T\left(\begin{array}{c}k_1\\k_2\\ \vdots\\ k_n\end{array}\right) = k_1T(\mathbf{e}_1) + \cdots +k_nT(\mathbf{e}_n) = k_1\left(\begin{array}{c}a_{11}\\a_{21}\\ \vdots\\a_{m1}\end{array}\right) + \cdots + k_n\left(\begin{array}{c}a_{1n}\\a_{2n}\\ \vdots\\ a_{mn}\end{array}\right).$$
Es muy fructífero, pues, seguir la pista de los $a_{ij}$ de alguna manera, y dada la expresión anterior, guardamos la pista de ellos en una matriz, que no es más que una matriz rectangular de números reales. Entonces pensamos en $T$ como si estuviera "dada" por la matriz $$\left(\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{array}\right).$$ Si queremos hacer un seguimiento de $T$ de esta manera, entonces para un vector arbitrario $\mathbf{x} = (x_1,\ldots,x_n)^t$ (el ${}^t$ significa "transponer"; convertir cada fila en una columna, cada columna en una fila), entonces tenemos que $T(\mathbf{x})$ corresponde a: $$\left(\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{array}\right) \left(\begin{array}{c} x_1\\x_2\\ \vdots\\ x_n\end{array}\right) = \left(\begin{array}{c} a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n\\ a_{21}x_1 + a_{22}x_2 + \cdots + a_{2n}x_n\\ \vdots\\ a_{m1}x_1 + a_{m2}x_2 + \cdots + a_{mn}x_n \end{array}\right).$$
¿Qué pasa cuando tenemos dos transformaciones lineales, $T\colon \mathbb{R}^n\to\mathbb{R}^m$ y $S\colon\mathbb{R}^p\to\mathbb{R}^n$ ? Si $T$ corresponde como en el caso anterior a un determinado $m\times n$ matriz, entonces $S$ corresponderá igualmente a un determinado $n\times p$ matriz, digamos $$\left(\begin{array}{cccc} b_{11} & b_{12} & \cdots & b_{1p}\\ b_{21} & b_{22} & \cdots & b_{2p}\\ \vdots & \vdots & \ddots & \vdots\\ b_{n1} & b_{n2} & \cdots & b_{np} \end{array}\right).$$ ¿Qué es? $T\circ S$ ? En primer lugar, es una transformación lineal porque la composición de transformaciones lineales da lugar a una transformación lineal. En segundo lugar, va de $\mathbb{R}^p$ a $\mathbb{R}^m$ por lo que debería corresponder a un $m\times p$ matriz. ¿Qué matriz? Si dejamos que $\mathbf{f}_1,\ldots,\mathbf{f}_p$ sea la (columna) $p$ -vectores dados por dejar $\mathbf{f}_j$ tienen $0$ s en todas partes y un $1$ en el $j$ entonces la matriz anterior nos dice que $$S(\mathbf{f}_j) = \left(\begin{array}{c}b_{1j}\\b_{2j}\\ \vdots \\b_{nj}\end{array}\right) = b_{1j}\mathbf{e}_1+\cdots + b_{nj}\mathbf{e}_n.$$
Entonces, ¿qué es $T\circ S(\mathbf{f}_j)$ ? Esto es lo que va en el $j$ columna de la matriz que corresponde a $T\circ S$ . Evaluando, tenemos: \begin {align*} T \circ S( \mathbf {f}_j) &= T \Bigl ( S( \mathbf {f}_j) \Bigr ) \\ &= T \Bigl ( b_{1j} \mathbf {e}_1 + \cdots + b_{nj} \mathbf {e}_n \Bigr ) \\ &= b_{1j} T( \mathbf {e}_1) + \cdots + b_{nj}T( \mathbf {e}_n) \\ &= b_{1j} \left ( \begin {array}{c} a_{11} \\ a_{21} \\ \vdots\\ a_{m1} \end {array} \right ) + \cdots + b_{nj} \left ( \begin {array}{c} a_{1n} \\a_ {2n} \\ \vdots\\ a_{mn} \end {array} \right ) \\ &= \left ( \begin {array}{c} a_{11}b_{1j} + a_{12}b_{2j} + \cdots + a_{1n}b_{nj} \\ a_{21}b_{1j} + a_{22}b_{2j} + \cdots + a_{2n}b_{nj} \\ \vdots\\ a_{m1}b_{1j} + a_{m2}b_{2j} + \cdots + a_{mn}b_{nj} \end {array} \right ). \end {align*} Así que si queremos escribir la matriz que corresponde a $T\circ S$ entonces el $(i,j)$ a entrada será $$a_{i1}b_{1j} + a_{i2}b_{2j} + \cdots + a_{in}b_{nj}.$$ Así que definir la "composición" o producto de la matriz de $T$ con la matriz de $S$ para ser precisamente la matriz de $T\circ S$ . Podemos hacer esta definición sin referencia a las transformaciones lineales que le dieron origen: si la matriz de $T$ es $m\times n$ con entradas $a_{ij}$ (llamémoslo $A$ ); y la matriz de $S$ es $n\times p$ con entradas $b_{rs}$ (llamémoslo $B$ ), entonces la matriz de $T\circ S$ (llamémoslo $A\circ B$ o $AB$ ) es $m\times p$ y con entradas $c_{k\ell}$ , donde $$c_{k\ell} = a_{k1}b_{1\ell} + a_{k2}b_{2\ell} + \cdots + a_{kn}b_{n\ell}$$ por definición . ¿Por qué? Porque entonces la matriz de la composición de dos funciones es precisamente el producto de las matrices de las dos funciones. Podemos trabajar con las matrices directamente sin tener que pensar en las funciones.
De hecho, no hay nada sobre el producto punto que esté en juego en esta definición. Es esencialmente por casualidad que el $(i,j)$ se puede obtener como un producto punto de algo . De hecho, el $(i,j)$ se obtiene como la producto de la matriz de la $1\times n$ matriz compuesta por el $i$ La fila de $A$ con el $n\times 1$ matriz compuesta por el $j$ columna de $B$ . Sólo si se transpone esta columna se puede tratar de interpretar esto como un producto punto. (De hecho, la visión moderna es al revés : nosotros definir el producto punto de dos vectores como un caso especial de un producto interno más general, llamado producto interno de Frobenius, que se define en términos de multiplicación de matrices, $\langle\mathbf{x},\mathbf{y}\rangle =\mathrm{trace}(\overline{\mathbf{y}^t}\mathbf{x})$ ).
Y como el producto de matrices corresponde a la composición de transformaciones lineales, todas las buenas propiedades que tiene la composición de funciones lineales serán automáticamente también es cierto para el producto de matrices, porque los productos de las matrices no son más que un dispositivo de contabilidad para llevar la cuenta de la composición de las transformaciones lineales . Así que $(AB)C = A(BC)$ porque la composición de funciones es asociativa. $A(B+C) = AB + AC$ porque la composición de las transformaciones lineales se distribuye sobre las sumas de las transformaciones lineales (las sumas de las matrices se definen entrada por entrada porque eso coincide precisamente con la suma de transformaciones lineales). $A(\alpha B) = \alpha(AB) = (\alpha A)B$ porque la composición de transformaciones lineales se comporta así con la multiplicación escalar (los productos de matrices por escalares se definen así precisamente para que correspondan a la operación con transformaciones lineales).
Así que definir producto de matrices explícitamente para que coincida con la composición de las transformaciones lineales. Realmente no hay ninguna razón oculta más profunda. Parece un poco incongruente, tal vez, que una razón tan simple resulte en una fórmula tan complicada, pero así es la vida.
Otra razón por la que es un poco erróneo tratar de entender el producto de la matriz en términos del producto de puntos es que el producto de la matriz lleva la cuenta de todo la información que hay sobre las dos composiciones, pero el producto punto pierde mucha información sobre los dos vectores en cuestión. Sabiendo que $\mathbf{x}\cdot\mathbf{y}=0$ sólo le dice que $\mathbf{x}$ y $\mathbf{y}$ son perpendiculares, realmente no te dice nada más. Hay mucha pérdida de información en el producto punto, y tratar de explicar el producto de la matriz en términos del producto punto requiere que "recuperemos" toda esta información perdida de alguna manera. En la práctica, esto significa seguir toda la información original, lo que hace que intentar meter el producto de puntos con calzador en la explicación sea innecesario, porque ya tienen toda la información para conseguir el producto directamente.
Ejemplos que no son sólo "cambios en el sistema de referencia". Tenga en cuenta que cualquier La transformación lineal corresponde a una matriz. Pero las únicas transformaciones lineales que pueden considerarse como "cambios de perspectiva" son las transformaciones lineales que mapean $\mathbb{R}^n$ a sí mismo, y que son uno a uno y sobre. Hay lotes de transfomaciones lineales que no son así. Por ejemplo, la transformación lineal $D$ de $\mathbb{R}^3$ a $\mathbb{R}^2$ definido por $$D\left(\begin{array}{c} a\\b\\c\end{array}\right) = \left(\begin{array}{c}b\\2c\end{array}\right)$$ no es un "cambio de sistema de referencia" (porque muchos vectores distintos de cero van a cero, pero no hay manera de "cambiar de perspectiva" y empezar a ver un vector distinto de cero como cero), pero es una transformación lineal. La matriz correspondiente es $2\times 3$ y es $$\left(\begin{array}{cc} 0 & 1 & 0\\ 0 & 0 & 2 \end{array}\right).$$ Consideremos ahora la transformación lineal $U\colon\mathbb{R}^2\to\mathbb{R}^2$ dado por $$U\left(\begin{array}{c}x\\y\end{array}\right) = \left(\begin{array}{c}3x+2y\\ 9x + 6y\end{array}\right).$$ De nuevo, esto no es un "cambio de perspectiva", porque el vector $\binom{2}{-3}$ se asigna a $\binom{0}{0}$ . Tiene una matriz, $2\times 2$ que es $$\left(\begin{array}{cc} 3 & 2\\ 9 & 6 \end{array}\right).$$ Así que la composición $U\circ T$ tiene matriz: $$\left(\begin{array}{cc} 3 & 2\\ 9 & 6 \end{array}\right) \left(\begin{array}{ccc} 0 & 1 & 0\\ 0 & 0 & 2 \end{array}\right) = \left(\begin{array}{ccc} 0 & 3 & 4\\ 0 & 9 & 12 \end{array}\right),$$ que me dice que $$U\circ T\left(\begin{array}{c}x\\y\\z\end{array}\right) = \left(\begin{array}{c} 3y + 4z\\ 9y+12z\end{array}\right).$$
Otros productos de la matriz. ¿Hay otras formas de definir el producto de dos matrices? Claro, está la Producto de Hadamard que es lo "obvio": puedes multiplicar dos matrices del mismo tamaño (y sólo del mismo tamaño), y lo haces entrada a entrada, de la misma manera que sumas dos matrices. Esto tiene algunas buenas propiedades, pero no tiene nada que ver con las transformaciones lineales. Existe la Producto Kronecker que toma un $m\times n$ matriz por un $p\times q$ y da una $mp\times nq$ matriz. Ésta está asociada a la producto tensorial de las transformaciones lineales. Se definen de forma diferente porque están pensadas para modelar otras operaciones que se hacen con matrices o vectores.
7 votos
¿Cuál es tu pregunta?
15 votos
La multiplicación de matrices se define de la manera en que se hace porque entonces coincide con la composición de transformaciones lineales. Hay otras multiplicaciones de matrices (por ejemplo, el producto de Kronecker, que se realiza entrada por entrada), pero la gran ventaja de la multiplicación de matrices "usual" es que corresponde a la composición de transformaciones lineales.
0 votos
Corrección: la entrada por entrada es el producto de Hadamard; el producto de Kronecker es otro tipo diferente de producto de matrices.
10 votos
La multiplicación de matrices no "ocurre", está definida de cierta manera. Por qué se define de esa manera es precisamente para que corresponda a composiciones de transformaciones lineales: nada más y nada menos. Para "ejemplos prácticos", escribe las transformaciones lineales en términos de la base, escribe cuál es la composición, y verás que corresponde exactamente a la multiplicación de matrices. No hay nada que "respaldar", la definición se hizo con un propósito particular en mente, y logra ese propósito, punto.
4 votos
Apoyando a Arturo: Las matrices solo se utilizan para visualizar transformaciones lineales, de esta manera la composición de dos transformaciones lineales $L_1$ y $L_2$ es una nueva transformación lineal $L_3=L_1\circ L_2$ que, al escribirla como matrices, es el producto de las matrices.
3 votos
Me siento como si esto fuera entonces una pregunta sobre historia: ¿por qué se definió (= cuáles fueron las motivaciones históricas) la multiplicación de matrices de la forma en que lo hizo? ¿Acaso el producto punto (que es en sí mismo mágico en que proporciona una proyección) surgió primero?
0 votos
¡Todos estos comentarios fueron excelentes! ¡No podrían ser mejores! :) incluido el que habla sobre la historia ya que la historia también es genial.
0 votos
Fue una buena pregunta y durante mi búsqueda encontré este enlace del curso abierto de MIT, que es un ejemplo simple pero bueno. ocw.mit.edu/courses/mathematics/…
1 votos
Esta es una buena pregunta, considerando que W. Heisenberg descubrió la fórmula de Kramers-Heisenberg sin saber nada sobre matrices, es decir, para su aplicación, descubrió la regla de la multiplicación de matrices.
2 votos
@Mitch Para ver la historia ve people.math.harvard.edu/~knill/history/matrix. El concepto de una matriz precede al de los espacios vectoriales y las transformaciones lineales. Ver también math.utah.edu/~gustafso/s2016/2270/web-projects/….