3 votos

¿Necesito 3 canales RGB para un espectrograma CNN?

Estoy calculando un espectrograma lineal de una señal de audio.
https://en.wikipedia.org/wiki/Spectrogram

El espectrograma es una matriz bidimensional con el tiempo en el eje x y la frecuencia en el eje y. El enfoque tradicional consiste en aplicar un mapeado de color para convertir el espectrograma (con valores de -80 a 0) en una imagen con tres canales de color. Esto lo convierte en un tensor tridimensional. Luego lo introducimos en la red neuronal convolucional.

Typical Linear Spectrogram Image up to 10 kHz

¿Es realmente necesario realizar este paso de asignación de colores? El mapeo de color tendrá diferentes rangos distintos de cero en diferentes canales, pero ¿qué ganamos? El mapa de colores se obtiene a partir de la matriz bidimensional, por lo que no veo que aumente la información, pero sí que aumenta la complejidad computacional. Y parece que realmente podría depender de qué mapa de color se utiliza, añadiendo otra capa de complejidad.

¿Realmente necesito tres canales, ya que toda la información está en la matriz 2D? ¿Cómo afecta esto a la capacidad de la CNN para detectar determinados marcadores de audio?

10voto

Djib2011 Puntos 693

No, el color es sólo un estética aspecto de los espectrogramas. Un espectrograma en escala de grises contiene todos de la información relevante en las intensidades de sus píxeles. Puedes saberlo porque en la mayoría de las aplicaciones puedes seleccionar tú mismo el mapa de colores (es decir, si quieres que las intensidades tomen tonos rojos, verdes, azules, morados, etc.).

Puedo confirmarlo personalmente, ya que he entrenado con éxito CNN con espectrogramas en escala de grises.

0voto

user164061 Puntos 281

Estás mapeando la intensidad en función del tiempo y la frecuencia. Es decir: tienes un mapa como $\mathbb{R}_+^2 \to \mathbb{R}_+ $ .

Esto es muy parecido a muchos otros tipos de mapeos de coordenadas 2d a algún nivel 1d. Por ejemplo, mapas de altura, mapas de temperatura, etc.

Técnicamente, no se necesitan colores ni 3 canales RGB para expresar el resultado (unidimensional).

Sin embargo, más allá de la finalidad estética del uso de los colores, cabe preguntarse por determinadas finalidades funcionales/prácticas de los colores. (por ejemplo: reconocimiento más fácil de rasgos específicos, reconocimiento más fácil de la escala incluso cuando las personas son daltónicas, etcétera).

Por ejemplo, en los mapas topográficos encontramos colores: azul (por debajo del nivel del mar), verde (altura moderada, es decir, donde crecen la hierba y las plantas), gris o marrón para las montañas.

wikcommonsexample

Desde un punto de vista técnico, estos colores del mapa de alturas podrían omitirse y el gráfico podría crearse igualmente en escala de grises.


El uso de los colores se convierte en un neccesidad cuando desee trazar varios características unidimensionales en un único gráfico (como trazar cada característica por un color diferente u otro aspecto del espectro). Es decir, cuando se desea trazar más de un resultado unidimensional.

Estos mapas tan complejos y coloridos no son fáciles de leer. Por eso no se hacen muchos y no hay muchos ejemplos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X