He visto algunas publicaciones que alimentan una imagen RGB de un espectrograma a una red neuronal, y alguien afirma que la red funciona mejor con RGB que con escala de grises.
Un espectrograma es fundamentalmente una representación 2D en la que cada punto es un valor real no negativo. Convertirlo a RGB no añade ninguna información. Peor aún, introduce una dependencia de la elección del mapa de color, que no es más que ruido. Es peor que convertir las imágenes en escala de grises a RGB, ya que rompe las dependencias espaciales de un espectrograma al dividirlo en canales.
¿Por qué iba a superar un espectrograma RGB a la escala de grises?
Ejemplo de pub con buenos resultados, pero hay razones para sospechar incompetencia por ejemplo "[1356x1071] las imágenes se escalaron sin pérdidas a 32x32", lo cual es imposible. No hay comparación con el enfoque en escala de grises, así que no podemos saber si obtuvo mejores resultados.
Hay algunas explicaciones "triviales" que enumeraré para evitar respuestas que las contengan:
- Aprendizaje por transferencia: uso de redes preentrenadas en RGB
- Arquitecturas adaptadas específicamente para maximizar la utilidad del RGB
Aunque son explicaciones válidas, no demuestran que el RGB sea mejor.