¿Necesito 3 canales RGB para un espectrograma CNN?

Question

¿Necesito 3 canales RGB para un espectrograma CNN?

Preguntado el 11 de Septiembre, 2019: Cuando se hizo la pregunta
2265 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy calculando un espectrograma lineal de una señal de audio.
https://en.wikipedia.org/wiki/Spectrogram

El espectrograma es una matriz bidimensional con el tiempo en el eje x y la frecuencia en el eje y. El enfoque tradicional consiste en aplicar un mapeado de color para convertir el espectrograma (con valores de -80 a 0) en una imagen con tres canales de color. Esto lo convierte en un tensor tridimensional. Luego lo introducimos en la red neuronal convolucional.

¿Es realmente necesario realizar este paso de asignación de colores? El mapeo de color tendrá diferentes rangos distintos de cero en diferentes canales, pero ¿qué ganamos? El mapa de colores se obtiene a partir de la matriz bidimensional, por lo que no veo que aumente la información, pero sí que aumenta la complejidad computacional. Y parece que realmente podría depender de qué mapa de color se utiliza, añadiendo otra capa de complejidad.

¿Realmente necesito tres canales, ya que toda la información está en la matriz 2D? ¿Cómo afecta esto a la capacidad de la CNN para detectar determinados marcadores de audio?

Preguntado el 11 de Septiembre, 2019 por Daniel P.

Answer 1

2 Respuestas

Answer 2

10voto

Djib2011 Puntos 693

No, el color es sólo un estética aspecto de los espectrogramas. Un espectrograma en escala de grises contiene todos de la información relevante en las intensidades de sus píxeles. Puedes saberlo porque en la mayoría de las aplicaciones puedes seleccionar tú mismo el mapa de colores (es decir, si quieres que las intensidades tomen tonos rojos, verdes, azules, morados, etc.).

Puedo confirmarlo personalmente, ya que he entrenado con éxito CNN con espectrogramas en escala de grises.

Respondido el 11 de Septiembre, 2019 por Djib2011 (693 Puntos )

Answer 3

0voto

user164061 Puntos 281

Estás mapeando la intensidad en función del tiempo y la frecuencia. Es decir: tienes un mapa como $\mathbb{R}_+^2 \to \mathbb{R}_+ $ .

Esto es muy parecido a muchos otros tipos de mapeos de coordenadas 2d a algún nivel 1d. Por ejemplo, mapas de altura, mapas de temperatura, etc.

Técnicamente, no se necesitan colores ni 3 canales RGB para expresar el resultado (unidimensional).

Sin embargo, más allá de la finalidad estética del uso de los colores, cabe preguntarse por determinadas finalidades funcionales/prácticas de los colores. (por ejemplo: reconocimiento más fácil de rasgos específicos, reconocimiento más fácil de la escala incluso cuando las personas son daltónicas, etcétera).

Por ejemplo, en los mapas topográficos encontramos colores: azul (por debajo del nivel del mar), verde (altura moderada, es decir, donde crecen la hierba y las plantas), gris o marrón para las montañas.

wikcommonsexample

Desde un punto de vista técnico, estos colores del mapa de alturas podrían omitirse y el gráfico podría crearse igualmente en escala de grises.

El uso de los colores se convierte en un neccesidad cuando desee trazar varios características unidimensionales en un único gráfico (como trazar cada característica por un color diferente u otro aspecto del espectro). Es decir, cuando se desea trazar más de un resultado unidimensional.

Estos mapas tan complejos y coloridos no son fáciles de leer. Por eso no se hacen muchos y no hay muchos ejemplos.

Respondido el 12 de Septiembre, 2019 por user164061 (281 Puntos )

¿Necesito 3 canales RGB para un espectrograma CNN?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Necesito 3 canales RGB para un espectrograma CNN?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: