Tengo un problema que me gustaría aplicar el aprendizaje de máquina (clasificación supervisada), sin embargo, los datos es secuencial, y cada fila en el vector de datos tiene su propia longitud. Esto implica que el número de elementos de cada fila no es constante (piensa en datos de series de tiempo - por ejemplo - por día-por-día de los datos). Así que esto significa que el orden de los datos tiene un sentido y simplemente no podemos por ejemplo, la almohadilla con ceros a hacer todas las filas tienen la misma longitud, ya que introducir señales espurias que podrían confundir mi clasificador. Al menos esa es mi opinión actual.
Un enfoque posible es el uso de por ejemplo, las funciones de la ventana y simplemente calcular (por cada día) de sumas de cosas. Pero eso significa que estoy perdiendo la información sobre la historia, ya que cada día tendría que ser representada como en su propia fila en la matriz con el fin de hacer que todas las filas tienen un número fijo de columnas, de modo que yo pueda aplicar clásica ML algoritmos. Quiero evitar esto, como creo que es un óptimo enfoque - pero me va a escuchar argumentos en contra de mi opinión.
No tengo mucha experiencia con las redes neuronales, pero creo que hay arquitecturas que el soporte no fijo-longitud de la secuencia de datos, por ejemplo, RNNs? ¿Alguien tiene alguna buena enlaces/recursos me puede considerar?
Doy la bienvenida a los pensamientos y sugerencias de los profesionales sobre cómo abordar este problema de modelamiento. Gracias!
Saludos, M