Permíteme comenzar diciendo que parece que no estás siendo muy cuidadoso al escribir expresiones matemáticas. Sin embargo, creo que puedo entender lo que estás preguntando, por lo que intentaré responder.
Para empezar, debemos aclarar la notación que se está utilizando. Hacer esto nos permitirá comunicarnos de manera más clara e identificar cualquier malentendido que pueda existir.
Cuando escribes $f(x,y):y= ax + b$, entiendo que realmente quieres decir lo siguiente $$ y = ax + b $$ donde $a$ y $b$ son constantes y números reales (aunque, estrictamente hablando, no necesariamente tienen que ser números reales). Además, $y$ es una función de solo una variable, $x$, por lo que escribimos $f(x)$ en lugar de $f(x,y)$. Presta atención al hecho de que la propiedad conmutativa de la multiplicación se satisface al multiplicar tanto $a$ como $x$ juntos. En otras palabras, no importa el orden en que se multipliquen $a$ y $x.
Ahora ingresemos la otra ecuación; es decir, lo que has escrito como $y = \beta X^{T} + \epsilon$. Esto es en realidad notación de matriz y tiene un significado diferente a la notación algebraica (¿más cotidiana?) mostrada en el párrafo anterior. El modelo de regresión lineal puede, de hecho, escribirse más comúnmente en la siguiente forma $$ y = X \beta + \epsilon $$ donde $y$ es un vector $(T \times 1)$, $X$ es una matriz $(T \times K)$, $\beta$ es un vector $(K \times 1)$ y $\epsilon$ es un vector $(T \times 1). La notación utilizada en corchetes se refiere a las dimensiones de cada vector o matriz, donde el primer número se refiere al número de filas y el segundo al número de columnas. Por lo tanto, por ejemplo, $X$ es una matriz con $T$ filas y $K$ columnas.
¡Nota la distinción! $X$ y $\beta$ son matrices no como $a$ y $x, que son solo valores escalares. Es crucial destacar que la propiedad conmutativa de la multiplicación de matrices no siempre se cumple en el mundo del álgebra lineal; el caso general es que no se cumple. En otras palabras, en general, $X\beta \neq \beta X$. Además, tal operación puede que ni siquiera esté permitida, ya que en álgebra de matrices, las matrices deben ser conformables para la multiplicación si se van a multiplicar.
Para que dos matrices sean conformables para la multiplicación de matrices, decimos que el número de columnas de la matriz izquierda debe ser igual al número de filas de la matriz derecha. En el modelo de regresión lineal, $X \beta$ es posible porque $X$, la matriz izquierda, tiene $K$ columnas y $\beta$, la matriz derecha, tiene $K$ filas. Por otro lado, $\beta X$ no sería posible porque $\beta$, la primera matriz, tiene $1$ columna mientras que $X$, la segunda matriz, tiene $T$ filas - a menos que, por supuesto, $T = 1.
En esta etapa, por favor revisa lo que quisiste decir cuando escribiste: $y = \beta X^{T} + \epsilon.
Por último, la página de Wikipedia a la que nos enlazas muestra que el modelo de regresión lineal también puede escribirse en una forma que involucra una transposición: $$ y_{i} = x_{i}^{T} \beta + \epsilon_{i} $$ donde tanto $x_{i}$ como $\beta$ son vectores columna de dimensión $(p \times 1).
Si algo de lo que he escrito tiene sentido, deberías ser capaz de entender por qué es $x_{i}^{T} \beta$ y no $x_{i} \beta$.