Creo que su pregunta debería ir acompañada de una respuesta tan libre y abierta como la propia pregunta. Así que aquí están mis dos analogías.
En primer lugar, a menos que seas un matemático puro, probablemente te hayan enseñado primero probabilidades univariantes y estadística. Por ejemplo, lo más probable es que tu primera OLS ejemplo fue probablemente en un modelo como este: $$y_i=a+bx_i+e_i$$ Lo más probable es que haya derivado las estimaciones mediante la minimización de la suma de mínimos cuadrados: $$TSS=\sum_i(y_i-\bar a-\bar b x_i)^2$$ Luego se escribe el FOC s para los parámetros y obtener la solución: $$\frac{\partial TTS}{\partial \bar a}=0$$
Luego te dicen que hay una forma más fácil de hacerlo con la notación vectorial (matricial): $$y=Xb+e$$
y el TTS se convierte: $$TTS=(y-X\bar b)'(y-X\bar b)$$
Los BDC son: $$2X'(y-X\bar b)=0$$
Y la solución es $$\bar b=(X'X)^{-1}X'y$$
Si eres bueno en álgebra lineal, te quedarás con el segundo enfoque una vez que lo hayas aprendido, porque en realidad es más fácil que escribir todas las sumas en el primer enfoque, especialmente una vez que entras en la estadística multivariante.
De ahí que mi analogía sea que pasar a los tensores desde las matrices es similar a pasar de los vectores a las matrices: si conoces los tensores algunas cosas te parecerán más fáciles de esta manera.
En segundo lugar, ¿de dónde vienen los tensores? No estoy seguro de toda la historia de este asunto, pero yo los aprendí en mecánica teórica. Ciertamente, tuvimos un curso sobre tensores, pero no entendí cuál era el problema con todas estas formas extravagantes de intercambiar índices en ese curso de matemáticas. Todo empezó a tener sentido en el contexto del estudio de las fuerzas de tensión.
Así, en física también se parte de un ejemplo sencillo de presión definida como fuerza por unidad de superficie, por tanto: $$F=p\cdot dS$$ Esto significa que se puede calcular el vector fuerza $F$ multiplicando la presión $p$ (escalar) por la unidad de superficie $dS$ (vector normal). Esto es cuando tenemos una sola superficie plana infinita. En este caso sólo hay una fuerza perpendicular. Un gran globo sería un buen ejemplo.
Sin embargo, si estás estudiando la tensión dentro de los materiales, estás tratando con todas las direcciones y superficies posibles. En este caso, las fuerzas sobre una superficie determinada tiran o empujan en todas las direcciones, no sólo en las perpendiculares. Algunas superficies son arrancadas por fuerzas tangenciales "hacia los lados", etc. Por lo tanto, su ecuación se convierte en $$F=P\cdot dS$$ La fuerza sigue siendo un vector $F$ y la superficie sigue representada por su vector normal $dS$ pero $P$ es un tensor ahora, no un escalar.
Vale, un escalar y un vector también son tensores :)
Otro lugar donde los tensores aparecen de forma natural son las matrices de covarianza o correlación. Piensa en esto: cómo transformar una matriz de correlación $C_0$ a otro $C_1$ ? Te das cuenta de que no podemos hacerlo así: $$C_\theta(i,j)=C_0(i,j)+ \theta(C_1(i,j)-C_0(i,j)),$$ donde $\theta\in[0,1]$ porque tenemos que mantener todos $C_\theta$ semidefinido positivo.
Así que, tendríamos que encontrar el camino $\delta C_\theta$ tal que $C_1=C_0+\int_\theta\delta C_\theta$ , donde $\delta C_\theta$ es una pequeña perturbación de una matriz. Hay muchos caminos diferentes, y podríamos buscar los más cortos. Así es como entramos en la geometría riemanniana, los colectores y... los tensores.
ACTUALIZACIÓN: ¿qué es el tensor?
@amoeba y otros se enzarzaron en una animada discusión sobre el significado de tensor y si es lo mismo que un array. Por lo tanto, pensé que un ejemplo está en orden.
Digamos que vamos a un bazar a comprar alimentos, y hay dos tipos de comerciantes, $d_1$ y $d_2$ . Nosotros notado que si pagamos $x_1$ dólares a $d_1$ y $x_2$ dólares a $d_2$ entonces $d_1$ nos vende $y_1=2x_1-x_2$ libras de manzanas, y $d_2$ nos vende $y_2=-0.5x_1+2x_2$ naranjas. Por ejemplo, si pagamos ambos 1 dólar, es decir $x_1=x_2=1$ entonces debemos obtener 1 libra de manzanas y 1,5 de naranjas.
Podemos expresar esta relación en forma de matriz $P$ :
2 -1
-0.5 2
Entonces los comerciantes producen esta cantidad de manzanas y naranjas si les pagamos $x$ dólares: $$y=Px$$
Esto funciona exactamente como una multiplicación de matriz por vector.
Ahora, digamos que en lugar de comprar los productos de estos comerciantes por separado, declaramos que hay dos paquetes de gastos que utilizamos. O bien pagamos ambos 0,71 dólares, o bien pagamos $d_1$ 0,71 dólares y exigir 0,71 dólares de $d_2$ atrás. Como en el caso inicial, vamos a un bazar y gastamos $z_1$ en el paquete uno y $z_2$ en el paquete 2.
Así pues, veamos un ejemplo en el que gastamos sólo $z_1=2$ en el paquete 1. En este caso, el primer comerciante obtiene $x_1=1$ dólares, y el segundo comerciante recibe la misma $x_2=1$ . Por lo tanto, debemos obtener las mismas cantidades de productos como en el ejemplo anterior, ¿no es así?
Tal vez, tal vez no. Te has dado cuenta de que $P$ no es diagonal. Esto indica que, por alguna razón, lo que un comerciante cobra por sus productos depende también de lo que le pagamos al otro comerciante. Deben tener una idea de cuánto les pagan, ¿tal vez a través de rumores? En este caso, si empezamos a comprar en fardos, sabrán con seguridad cuánto pagamos a cada uno de ellos, porque declaramos nuestros fardos al bazar. En este caso, ¿cómo sabemos que el $P$ ¿la matriz debe permanecer igual?
¡Tal vez con la información completa de nuestros pagos en el mercado las fórmulas de precios cambiarían también! Esto cambiará nuestra matriz $P$ y no hay manera de decir cómo exactamente.
Aquí es donde introducimos los tensores. Esencialmente, con los tensores decimos que los cálculos no cambian cuando empezamos a negociar en paquetes en lugar de directamente con cada comerciante. Esa es la restricción, que impondrá reglas de transformación en $P$ que llamaremos tensor.
En particular, podemos observar que tenemos una base ortonormal $\bar d_1,\bar d_2$ , donde $d_i$ significa un pago de 1 dólar a un comerciante $i$ y nada al otro. También podemos observar que los haces también forman una base ortonormal $\bar d_1',\bar d_2'$ que también es una simple rotación de la primera base en 45 grados en sentido contrario a las agujas del reloj. También es una descomposición en PC de la primera base. Por lo tanto, estamos diciendo que el cambio a los haces es un simple cambio de coordenadas, y no debería cambiar los cálculos. Nótese, que esta es una restricción externa que impusimos al modelo. No proviene de las propiedades matemáticas puras de las matrices.
Ahora, nuestra compra puede expresarse como un vector $x=x_1 \bar d_1+x_2\bar d_2$ . Los vectores también son tensores, por cierto. El tensor es interesante: se puede representar como $$P=\sum_{ij}p_{ij}\bar d_i\bar d_j$$ y los comestibles como $y=y_1 \bar d_1+y_2 \bar d_2$ . Con los comestibles $y_i$ significa libra de producto del comerciante $i$ no los dólares pagados.
Ahora, cuando cambiamos las coordenadas por paquetes la ecuación del tensor sigue siendo la misma: $$y=Pz$$
Eso está bien, pero los vectores de pago están ahora en la base diferente: $$z=z_1 \bar d_1'+z_2\bar d_2'$$ mientras que podemos mantener los vectores de producción en la base antigua $y=y_1 \bar d_1+y_2 \bar d_2$ . El tensor también cambia: $$P=\sum_{ij}p_{ij}'\bar d_i'\bar d_j'$$ . Es fácil derivar cómo debe transformarse el tensor, va a ser $PA$ donde la matriz de rotación se define como $\bar d'=A\bar d$ . En nuestro caso es el coeficiente del paquete.
Podemos elaborar las fórmulas de la transformación tensorial, y darán el mismo resultado que en los ejemplos con $x_1=x_2=1$ y $z_1=0.71,z_2=0$ .
33 votos
Parece que la única característica que los "tensores de big data" comparten con la definición matemática habitual es que son matrices multidimensionales. Así que yo diría que los tensores de big data son una forma comercializable de decir "matriz multidimensional", porque dudo mucho que a la gente del aprendizaje automático le importen las simetrías o las leyes de transformación de las que gozan los tensores habituales de las matemáticas y la física, especialmente su utilidad para formar ecuaciones sin coordenadas.
2 votos
@AlexR. sin invariancia a las transformaciones no hay tensores
0 votos
@Aksakal No puedo decir si estás o no de acuerdo con Alex R. ¿Estás de acuerdo en que, como sugiere Alex R., la palabra "tensor" se utiliza a menudo de forma incorrecta y que "matriz multidimensional" sería normalmente un término más apropiado (en los artículos de aprendizaje automático)?
3 votos
Poniéndome mi sombrero matemático puedo decir que no hay ninguna simetría intrínseca en un tensor matemático. Además, son otra forma de decir "matriz multidimensional". Se podría votar a favor de usar la palabra tensor en lugar de usar la frase matriz multidimensional simplemente por razones de simplicidad. En particular, si V es un espacio vectorial n - dimensional, se puede identificar $V \otimes V$ con matrices de n por n.
1 votos
@aginensky, no soy matemático, pero en física los tensores son diferentes a los array, tienen ciertas restricciones que los array no tienen. Algunos tensores se pueden representar como arrays, y las operaciones son similares, pero hay simetrías subyacentes en los tensores. Por ejemplo, en la mecánica de tensiones su tensor debe ser invariante al cambio del sistema de coordenadas. Sin estas restricciones no tiene sentido usar tensores en física.
2 votos
@Aksakal Ciertamente estoy algo familiarizado con el uso de tensores en física. Mi punto sería que las simetrías en los tensores de la física provienen de la simetría de la física, no algo esencial en la defn de tensor.
1 votos
@aginensky Diciendo que $V$ es un "espacio vectorial" ya asume las propiedades de transformación de las que hablan Alex y Aksakal. Piensa en una matriz 3D típica de ML, por ejemplo, un conjunto de 1000 fotogramas de vídeo de 600x400. ¿En qué sentido es eso un "tensor"? Claro, si $V$ , $W$ y $U$ son espacios vectoriales de 1000, 600 y 400 dimensiones, entonces un elemento de $V\otimes W \otimes U$ en un determinado sistema de coordenadas puede representarse con la misma cantidad de números. ¿Pero tiene sentido hablar de píxeles verticales/horizontales como espacios vectoriales? Quizá sí, pero no es obvio.
1 votos
@ amoeba- Voy a hacer un comentario más, siéntase libre de responder y tener la última palabra. La definición de un espacio vectorial no menciona las simetrías. Como muchos objetos matemáticos, tiene simetrías y se pueden estudiar. Sin embargo, no forman parte de la definición. Por otra parte, una base no forma parte de la definición de un espacio vectorial. Así, por ejemplo, se puede distinguir entre una transformación lineal y una matriz. Esta última es una realización de una transformación lineal con respecto a una base específica. Además, no siempre está claro que la base "natural" sea la correcta. Por ejemplo, consideremos la pca.
0 votos
@amoeba, no he leído los artículos sobre tensores y fotogramas de vídeo. Sin embargo, si estamos viendo dos fotogramas subsiguientes de los mismos objetos grabados con la cámara, podría argumentar que aunque los contenidos de los fotogramas son ciertamente diferentes, representan el mismo objeto, por lo que tiene que haber algunas condiciones de invariancia en los contenidos de los archivos. Aunque no estoy seguro de si son relaciones tensoriales.
3 votos
@aginensky Si un tensor no fuera más que una matriz multidimensional, ¿por qué las definiciones de los tensores que se encuentran en los libros de texto de matemáticas parecen tan complicadas? De Wikipedia: "Los números de la matriz multidimensional se conocen como los componentes escalares del tensor... Al igual que las componentes de un vector cambian cuando cambiamos la base del espacio vectorial, las componentes de un tensor también cambian bajo dicha transformación. Cada tensor viene equipado con una ley de transformación que detalla cómo responden las componentes del tensor a un cambio de base." En matemáticas, un tensor no es sólo una matriz.
0 votos
@amoeba, he actualizado mi respuesta con un ejemplo para mostrar lo que difiere un tensor
5 votos
Sólo algunas reflexiones generales sobre este debate: Creo que, al igual que con los vectores y las matrices, la aplicación real se convierte a menudo en una instanciación muy simplificada de una teoría mucho más rica. Estoy leyendo este documento con más profundidad: epubs.siam.org/doi/abs/10.1137/07070111X?journalCode=siread y una cosa que me está impresionando mucho es que las herramientas de "representación" de las matrices (descomposiciones de valores propios y valores singulares) tienen interesantes generalizaciones en órdenes superiores. Estoy seguro de que hay muchas más propiedades bonitas también, más allá de ser un bonito contenedor para más índices. :)
0 votos
(PARA SU INFORMACIÓN: El significado de los tensores en la comunidad de redes neuronales )
0 votos
@aginensky "las simetrías en los tensores de la física provienen de simetrías en la física, no de algo esencial en la definición del tensor" - esto es completamente falso en cuanto a las propiedades de transformación de las que gozan los tensores con respecto a una base. Ese es un ingrediente clave en la matemáticas definición de un tensor, independiente de cualquier aplicación física. Al igual que una matriz representa un mapa lineal, una matriz multidimensional puede representan un tensor, pero no es el propio tensor.
0 votos
@silvascientist - por favor, lee "La irracional eficacia de las matemáticas en la física". Si después de eso sigues en la escuela Potter Stewart de definición de tensores, me parece bien. Permíteme sugerir que no desconozco las propiedades matemáticas de los tensores matemáticos.
1 votos
@aginensky "la escuela Potter Stewart de definición de tensores" - ¿qué, que un tensor se define como una cosa que se transforma según las reglas de los tensores? Difícilmente. Hay varias formas muy precisas de definir los tensores, todas ellas dando lugar a nociones equivalentes, pero probablemente la definición más sencilla con la que yo me quedaría es que un tensor es simplemente una función escalar multilineal de varios argumentos en el espacio vectorial y el espacio dual. Dada una base, podemos representar el tensor mediante una matriz multidimensional, que puede expresar la acción del tensor por contracción con el/los vectores.
2 votos
@aginensky La cuestión es que, en ausencia de las propiedades especiales que se esperan de un tensor, una matriz multidimensional es realmente sólo una matriz multidimensional.
0 votos
@AlexR. Estoy de acuerdo en que los tensores en TensorFlow o marcos similares son matrices multidimensionales. no poseen la invariancia de transformación de los tensores, al menos directamente. al mismo tiempo, indirectamente deben "soportar" la invariancia en el sentido débilmente amplio: La IA debe ser capaz de reconocer la letra en la imagen independientemente del ángulo y la orientación del cuadro. sin embargo, yo diría que esta propiedad sólo la mantiene el conjunto, no el "tensor" que se pasa entre los vértices del TensorFlow, que es sólo un array
0 votos
@silvascientist, yo argumentaría que los tensores están hechos para tener estas características de invariancia porque fueron utilizados en la física. así que, sí, los tensores como los definimos tienen la inavarince incluso fuera del contexto físico, pero es por el diseño que vino de las aplicaciones de la física