Cuando hablamos de oír frecuencias y sobretonos, casi siempre lo hacemos en base a ondas sinusoidales, según una descomposición estándar de Fourier. ¿No podríamos descomponer también una señal en otra base de funciones periódicas ortogonales, como las ondas cuadradas? Según la descomposición de Fourier, una onda cuadrada tiene muchas frecuencias. De hecho, cuando oigo una onda cuadrada, puedo oír sobretonos. Pero la base de las ondas cuadradas, tiene una sola frecuencia. ¿Por qué la descomposición de Fourier es más fundamental para la audición humana?
Respuestas
¿Demasiados anuncios?La "razón" por la que la descomposición de Fourier es la "correcta" tiene que ver con el hecho de que ambos detectores de señal (micrófonos, oídos, etc.) funcionan como osciladores armónicos accionados . O más bien, es el hecho de que la aproximación armónica tiende a ser una bien aproximación para describir la cinemática de un objeto que utilizamos como dispositivo de detección.
Si un objeto es un oscilador armónico simple, entonces tiene una frecuencia natural, y esta frecuencia corresponde a sinusoidal movimiento del oscilador. En consecuencia, el modelo más sencillo (¡y razonable!) para el acoplamiento de una onda sonora al oscilador es aquel en el que se produce resonancia. En este caso, si la frecuencia natural del oscilador aparece en la expansión de Fourier de la onda sonora, entonces el oscilador vibrará a esta frecuencia resonante con una amplitud que depende directamente de la amplitud de ese componente de Fourier en el sonido. De este modo, las componentes de Fourier de la onda son "reales" y, por tanto, la expansión de Fourier es una físicamente natural de usar.
Ahora, hay un par de grandes advertencias que van junto con esto. La primera es menos importante, así que la trataré primero. Directo objetos de detección, como los diafragmas de los micrófonos y el tímpano, son osciladores de muy baja Q, lo que significa que no realmente tienen una frecuencia natural bien definida. De hecho, están diseñados para responder con relativa intensidad en un amplio rango de frecuencias, lo que los hace útiles como detectores. Sin embargo, más adelante son a menudo objetos que tienen frecuencias naturales relativamente bien definidas, como los lugares de la membrana basilar en el oído interno.
El segundo problema es peor: la percepción del sonido es enormemente complicado, no sólo porque el procesamiento de la señal que tiene lugar en nuestros cerebros implica no linealidades (como la retroalimentación y el feedforward entre los centros de procesamiento del cerebro y el aparato sensorial), sino también porque la mecánica de la propia detección en el oído interno no es tan sencilla como que haya diferentes objetos que tengan frecuencias naturales bien definidas.
Como primera aproximación, podemos pensar que distintos lugares de la membrana basilar de la cóclea (donde están los nervios que se disparan y envían señales al cerebro) tienen distintas frecuencias naturales bien definidas de oscilación (sinusoidal) que responden individualmente a los distintos componentes de Fourier de una onda que viaja por el oído interno. Sin embargo, esta sencilla imagen se complica por el hecho de que los modos son acoplado entre sí linealmente debido a que la membrana es un membrana (en realidad no hay osciladores aislados). Como consecuencia, hay un solapamiento significativo entre los distintos lugares en la membrana en términos de respuesta en frecuencia, especialmente a frecuencias bajas.
Por esta razón, el proceso de audiencia implica como mínimo dos diferentes mecanismos: la teoría del lugar que acabamos de describir y la temporal teoría, que no implica un fenómeno de resonancia. Pero esa es una historia para otra pregunta.
El sistema sensorial humano es un gran conjunto de detectores formados por células nerviosas. Una sensación compleja se produce cuando un estímulo desencadena un gran número de células nerviosas, mientras que una sensación simple desencadena un pequeño número de células nerviosas.
Para un ejemplo "táctil", coloque un lápiz plano en la palma de la mano. Siente el lápiz cerca de la muñeca, y también cerca de los dedos, y entre ellos. Ahora coge el lápiz y pínchate la palma de la mano con la punta. Estás activando un número menor de células sensoriales, por lo que la sensación es más "pura".
La palma de la mano tiene una alta densidad de sensores táctiles, pero la espalda tiene una densidad mucho menor. Hay un truco muy conocido que consiste en tocar la espalda de alguien con las puntas de un número desconocido de lápices: puede que sólo uno, o puede que cuatro o seis juntos en el puño. Las distintas puntas de los lápices no activan nervios sensoriales diferentes en la espalda, por lo que la persona a la que se pincha no puede distinguir entre una punta y varias.
En el ojo, el cristalino capta los rayos de luz procedentes de una dirección determinada y los enfoca hacia un punto concreto de la retina, donde hay una célula nerviosa esperando para captarlos.
En el oído, las células nerviosas recubren la cóclea, que es un tubo cónico lleno de líquido. Un tono "puro" excita algunas de estas células nerviosas sin excitar otras. No sé muy bien cómo ocurre esto exactamente. En el pasado he leído que la forma cónica de la cóclea crea una onda estacionaria dependiente de la longitud de onda con un antinodo en las células nerviosas correspondientes a un tono concreto. Como físico, me entusiasma la idea de que la amplificación resonante desempeñe un papel en la biología. Sin embargo, esta hipótesis del antinodo parece incoherente con el hecho de que las frecuencias altas se detecten en la boca ancha de la cóclea, y las frecuencias bajas más adentro. Otra posibilidad es que las ondas sonoras en el líquido coclear sufran una extinción dependiente de la frecuencia, y que la sensación de un tono "puro" corresponda a un límite bien definido entre las células cocleares aguas arriba, que están excitadas, y las aguas abajo, que están inactivas.
Este modelo de sensibilidad tonal basado en la extinción explica por qué los sonidos fuertes de baja frecuencia aceleran la pérdida de audición de alta frecuencia relacionada con la edad. También traslada la cuestión de los tonos "puros" sinusoidales de la biología y la neurología al ámbito del análisis frecuencial de las oscilaciones amortiguadas en los fluidos.
Refuto la premisa: nosotros no escuchar las frecuencias en la base de los senos. Cuando oímos una onda en forma de diente de sierra, no la percibimos como un montón de parciales sinusoidales superpuestos, sino como un sonido único con un tono y un timbre particulares. Sólo cuando se realzan algunos parciales por encima del nivel de sus vecinos, destacan como tonos por derecho propio, aunque incluso entonces atribuimos al resultado una cualidad "como ciertas voces", dependiendo de dónde se sitúe el realce. El efecto wah-wah de guitarra se basa en este fenómeno.
Lo más parecido a la verdad es decir La base de Fourier proporciona una descomposición en información a la que somos sensibles (amplitudes) e información a la que no lo somos (o apenas) sensible a (fases) . Esto puede comprobarse escuchando música a través de filtros paso-todo que revuelven las fases de los parciales pero dejan sus amplitudes como están. Si observas la forma de onda de una señal filtrada, parecerá completamente distinta de la original, pero si la escuchas, sonará muy parecida.
Es bastante útil que los oídos funcionen así, porque la información de fase es completamente poco fiable en un entorno natural: con las reflexiones retardadas de las paredes, la dispersión del viento, etc., la misma persona hablando en dos salas distintas se percibiría de forma muy diferente si tuviéramos en cuenta la fase. Las diferentes salas también modifican las amplitudes (a veces, un modo sinusoidal concreto se desfasa entre reflexiones), pero más de las relaciones de amplitud suelen ser similares entre los distintos espacios acústicos.
Ahora, el propio nombre todo paso se refiere, por supuesto, a la descomposición de Fourier, al hecho de que todos los sinusoidales salen con la misma amplitud. Pero, en realidad, estos filtros pueden definirse sin ninguna referencia a eso:
Los filtros paso-todo son los operadores bajo cuya acción cualquier señal de autocorrelación permanece invariable.
La autocorrelación de una señal $u$ es simplemente el $L^2$ correlación (es decir, producto interno) con versiones de sí mismo desplazadas en el tiempo: $$ R_u(\tau) = \int_\mathbb{R}\!\mathrm{d}t\: u(t)\cdot u(t+\tau). $$ Es fácil ver por qué esto es algo bueno a tener en cuenta si queremos no ser sensibles a la acústica de la sala: si creas una versión desplazada en el tiempo de la señal $\tilde u(t) = u(t-0.17\,\mathrm{s})$ (correspondiente a la reflexión del sonido en una pared situada a 30 metros), la autocorrelación es la misma: $$\begin{align} R_{\tilde{u}}(\tau) =& \int\limits_{-\infty}^{\infty}\!\mathrm{d}t\: u(t-0.17\,\mathrm{s})\cdot u(t+\tau-0.17\,\mathrm{s}) \\=& \int\limits_{-\infty+0.17\,\mathrm{s}}^{\infty+0.17\,\mathrm{s}}\!\mathrm{d}t\: u(t)\cdot u(t+\tau) = R_u(\tau). \end{align}$$ Lo que sí tiene que ver la descomposición de Fourier es que se puede utilizar para calcular la autocorrelación de forma eficiente. Obsérvese que la autocorrelación es la convolución de la señal con una versión de sí misma en espejo de tiempo, y la transformada de Fourier la única descomposición lineal tal que $$ \mathcal{F}(\phi\star\psi)(\omega) = \mathcal{F}(\phi)(\omega) \cdot \mathcal{F}(\psi)(\omega). $$ Esta es quizás la razón más importante por la que el análisis de Fourier es una herramienta tan útil, aunque el punto que la marcha hizo sobre osciladores armónicos también es ciertamente relevante.
Podemos y lo hacemos en algunos casos. Echa un vistazo a los polinomios de Zernike para descomponer distribuciones de frecuencia bidimensionales, por ejemplo.
La respuesta corta es que las ondas sinusoidales son bonitas y limpias, se comportan bien al aplicar la transformada de Fourier u otras transformadas, así que ¿por qué complicarse la vida?
Para situar su pregunta en una perspectiva más amplia: considere ruido blanco
Como sabemos: la expresión "ruido blanco" se utiliza para el sonido continuo que consta de frecuencias aleatorias; desplazamiento aleatorio de la frecuencia, desplazamiento aleatorio del volumen de cada frecuencia consistente (lo que da como resultado un volumen aproximadamente continuo para el ruido blanco global).
En caso de ruido blanco cualquier la descomposición es inútil.
Es decir: en el caso del ruido blanco la descomposición en una base de ondas sinusoidales es tan inútil como cualquier otra descomposición en alguna base. Entonces: en el caso del ruido blanco la descomposición de Fourier en una base de senos es no una descomposición preferida.
Instrumentos musicales y resonancia
Los instrumentos musicales construidos con un diseño probado tienen la propiedad de que el sonido que producen se transmite bien.
Es posible que las primeras versiones de ese instrumento tuvieran un sonido que se transmitía peor, y esas versiones se abandonaron. Los diseños probados y comprobados se desarrollaron a lo largo de los siglos, siempre con el oído puesto en producir un sonido que se transmita bien.
Una flauta está diseñada para tener una buena resonancia en todos los tonos de su gama. Por supuesto: al abrir y cerrar determinados orificios/válvulas, el instrumento se reconfigura para resonar en el tono que produce el flautista.
La resonancia siempre es mejor cuando el medio vibrante tiene la oportunidad óptima de oscilar en oscilación armónica.
Por lo tanto, incluso cuando el diseño de los instrumentos se desarrolla principalmente a través de ensayo y error, el diseño tiende a favorecer la producción de un sonido que consiste en oscilaciones armónicas que son múltiplos de la frecuencia base que produce el instrumento.
La dimensión psicológica es que a los humanos nos interesan mucho más los sonidos que constan de múltiples armónicos.
El ruido blanco carece totalmente de interés; no podemos oír nada en él.
Lo que más nos interesa son los sonidos con una estructura interna perceptible.
Para los sonidos más interesantes para nuestra percepción auditiva humana: La descomposición de Fourier en una base de senos es, en efecto, la única opción.
- Ver respuestas anteriores
- Ver más respuestas