El problema
Estoy tratando de estimar el 3D pose de una persona a la que se observa con una sola cámara y 5 usado IMUs (extremidades extremidades y la parte superior de la espalda). Los cuadros de la cámara se convierten a la forma característica basada en vectores, y el IMUs cada proporcionan 4D de cuaterniones representaciones de su orientación.
He recuperado el 3D plantean el uso de cada modalidad en el aprendizaje de una asignación de la función de entrada de espacio para la salida del espacio de la pose. Ahora quiero obtener mejores resultados mediante la combinación de ambas modalidades de alguna manera a través de la fusión de sensores.
He probado añadiendo la función de los vectores de cada modalidad y también usando un promedio ponderado de sus salidas. Estos son muy simples enfoques, y sólo dio lugar a mejoras muy pequeñas, en promedio.
Pregunta
¿Qué otros enfoques puedo intentar combinar estos dos inconmensurable fuentes de datos?
Es allí cualquier preprocesamiento sobre las características que debe de hacer?
Nota: Mi preferencia es seguir utilizando un aprendizaje basado en el enfoque, si es posible. (es decir, no quiero explícitamente el modelo de la física/cinemática/etc)