Aunque creo que la verdadera razón es puramente histórica, he aquí una posible explicación de por qué la notación común podría ser más natural, y se reduce a los siguientes hechos:
- Nos gusta pensar en la composición $g ∘ f$ de mapas $f \colon X → Y$ , $g \colon Y → Z$ como " $g$ después de $f$ "y no al revés (es decir, garantizar que " $(g∘f)(x) = g(f(x))$ "lo cual es intuitivo).
- Nos gusta pensar en las matrices como mapas lineales de una "forma covariante".
- Nos gusta pensar en los vectores como columnas (para evitar malgastar el precioso espacio horizontal (porque escribimos de izquierda a derecha, no de arriba abajo)).
- Nos gusta anular cosas en el centro en lugar de fuera, porque eso se queda mejor en mi (¿nuestra?) memoria.
Así que $R$ sea un anillo (o un campo, por ejemplo $R = ℚ$ necesitados) y siga leyendo.
En álgebra lineal, a menudo utilizamos matrices $A ∈ \operatorname{Mat}_{m×n}(R)$ como mapas que vienen dados por la multiplicación $$f_A \colon R^n → R^m,~x ↦ Ax,$$ para lo que en realidad necesitamos pensar en vectores en $R^n$ y $R^m$ como columnas.
Ahora, nosotros podría también pensar en ellos como mapas $$f_A^{op} \colon R^m → R^n,~x ↦ xA,$$ pero entonces
- pierden la bonita identidad "covariante" $f_A∘f_B = f_{AB}$ (y acabaría en cambio con la identidad "contravariante" $f_B^{op}∘f_A^{op} = f_{AB}^{op}$ ), y
- necesidad de pensar en $R^m$ y $R^n$ como filas en lugar de columnas ou
- redefinir el producto matricial para multiplicar columnas de la primera matriz por filas de la segunda (en lugar de filas de la primera por columnas de la segunda).
Aunque los dos últimos puntos pueden no ser un problema, el primero sí lo es para mucha gente. Así que estamos a favor de la interpretación $f_A$ sobre la interpretación $f_A^{op}$ .
Bien, ahora si escribes un producto de una matriz por un vector, realmente quieres preservar el espacio horizontal, así que más bien piensas en el vector como una columna. También nos gustaría considerar este producto como un caso especial de un producto matricial general, considerando los vectores como matrices especiales.
Esto nos obliga a multiplicar matrices por el esquema "producto punto de filas de la primera matriz por columnas de la segunda matriz". En concreto, el número de filas de un producto viene determinado por su primer factor, y el número de columnas, por su segundo factor.
Ahora, si tuviéramos que anotar por $(j,i)$ la entrada en el $j$ -ésima columna y $i$ -ésima fila de una matriz, la definición del producto matricial $$(c_{ji})_{n×m} = (a_{ki})_{q×m}·(b_{jk})_{n×q}$$ sería $$c_{ji} = \sum_{k=1}^q a_{ki}·b_{jk},$$ por lo que no podrías memorizarlo como "el índice medio se anula" que, para mí, suena mucho más natural que "los índices exteriores se anulan".
Por supuesto, sacrificas la naturalidad de tener la cuadrícula bidimensional, que recuerda al plano cartesiano, como sugerías. Pero como ya estamos escribiendo matrices de arriba-izquierda a abajo-derecha (porque esa es la forma en que escribimos) como otros ya han señalado en los comentarios, realmente no se puede pensar en una matriz de la misma manera que el plano cartesiano de todos modos, así que ¿por qué tratar de forzarlo? Tal como está, al menos preserva la orientación matemática positiva y si inclinas la cabeza por $-π/2$ ¡tienes de nuevo tu plano cartesiano!