Estoy calculando un espectrograma lineal de una señal de audio.
https://en.wikipedia.org/wiki/Spectrogram
El espectrograma es una matriz bidimensional con el tiempo en el eje x y la frecuencia en el eje y. El enfoque tradicional consiste en aplicar un mapeado de color para convertir el espectrograma (con valores de -80 a 0) en una imagen con tres canales de color. Esto lo convierte en un tensor tridimensional. Luego lo introducimos en la red neuronal convolucional.
¿Es realmente necesario realizar este paso de asignación de colores? El mapeo de color tendrá diferentes rangos distintos de cero en diferentes canales, pero ¿qué ganamos? El mapa de colores se obtiene a partir de la matriz bidimensional, por lo que no veo que aumente la información, pero sí que aumenta la complejidad computacional. Y parece que realmente podría depender de qué mapa de color se utiliza, añadiendo otra capa de complejidad.
¿Realmente necesito tres canales, ya que toda la información está en la matriz 2D? ¿Cómo afecta esto a la capacidad de la CNN para detectar determinados marcadores de audio?