Estoy planeando hacer una NN de generación de audio. Aunque estoy razonablemente bien con las redes neuronales en general, wavenets, etc., hay algo que no me queda muy claro.
¿Cuáles son las buenas funciones de pérdida para el audio, teniendo en cuenta los puntos siguientes?
- Los datos del patrón pueden tener un silencio inicial variable.
- El tamaño del silencio de entrada cambia la "fase" de la onda total. (Incluso un pequeño desplazamiento puede arruinar una comparación)
- El generador es un TTS, por lo que nada en los datos de entrada indica la fase/silencio de entrada
- Si sólo comparo con cualquier pérdida estándar, la fase puede causar un 100% de error
Debido a lo anterior, me temo que el modelo tendrá muchas dificultades para decidir el tamaño del silencio inicial, especialmente para entradas de texto muy similares. Las ondas tenderán (imagino) a aplanarse debido a la salvaje aleatoriedad de las fases de destino.
¿Existen soluciones que apliquen una pérdida estándar pero desplazando el audio primero de alguna manera? ¿Para que el desplazamiento sea irrelevante?