Estoy buscando una manera de modelar y extraer características de los datos temporales multivariados (por ejemplo, grabaciones de audio multicanal).
Me interesan específicamente los métodos de aprendizaje profundo como RBM, autocodificadores dispersos y demás.
La mayoría de los métodos que encontré consideran sólo una dimensión de los datos, o tal vez un "bloque" 2D en los datos (normalmente imágenes).
No pude encontrar un documento sobre cómo tomar en consideración el aspecto temporal y también el aspecto multivariado. Por ejemplo, si estoy grabando audio de múltiples canales, entonces sé que los canales están probablemente correlacionados en algún grado. Además, como se trata de una señal temporal en evolución, también hay cierta correlación de cada muestra con las anteriores.
¿Hay alguna manera de incorporar estas restricciones temporales multivariantes en una red?
Estoy buscando documentos específicos sobre métodos para el temporal multivariado donde se utiliza la estructura multicanal.
Gracias.