¿Cómo se define cuantitativamente el tono de un sonido cuando es una mezcla de muchas frecuencias? Por ejemplo, el sonido emitido por una cuerda de guitarra pulsada, o digamos, el tono de la voz (normal) de alguien. Sé que las voces femeninas suelen ser más agudas. Pero, ¿podemos cuantificar la noción de tono? Creo que el tono de un sonido complejo depende de las amplitudes relativas de los distintos componentes de frecuencia.
Respuestas
¿Demasiados anuncios?El tono puede describirse como percepción subjetiva de un estímulo auditivo que no puede cuantificarse de forma objetiva e inequívoca. Está estrechamente relacionado con la propiedad física objetiva de la frecuencia, de modo que las frecuencias más altas suelen corresponder a un tono percibido más alto, pero incluso notas con una frecuencia idéntica pueden percibirse como si tuvieran tonos diferentes, dependiendo de lo altas que estén, de qué otras frecuencias se toquen al mismo tiempo o muy cerca, y de otros factores. Una onda sinusoidal pura suele corresponderse fácilmente con su tono percibido, pero los sonidos más complejos pueden no serlo.
Una mezcla de muchas frecuencias puede tener una frecuencia dominante que se percibe como el tono general del sonido, o las muchas frecuencias pueden mezclarse de forma que no se perciban como ningún tono en particular. El sonido de un redoblante, por ejemplo, no suele percibirse como un tono determinado, pero casi todo el mundo está de acuerdo en que un redoblante tiene un tono más alto que un bombo. El bombo resuena con más fuerza en las frecuencias bajas que la caja, pero ninguno de los dos sonidos se describe muy bien como un tono determinado.
Puede que le interesen ilusiones auditivas como el glissando de Shepard-Risset, que se percibe como si tuviera un tono siempre ascendente, a pesar de que las frecuencias permanecen dentro de una ventana fija. Podemos cuantificar objetivamente las frecuencias subyacentes, pero no siempre es fácil asignar una forma de onda a la experiencia subjetiva del tono. Como señala @march, incluso es posible percibir el tono de un tono complejo cuando la frecuencia correspondiente está amortiguada o incluso completamente ausente de la forma de onda. El tono producido por un timbal, por ejemplo, está implícito en los armónicos que produce, con la frecuencia fundamental resonando mucho más débilmente que las frecuencias más altas: el tono percibido del tambor no es simplemente la frecuencia con mayor amplitud. Las aplicaciones prácticas de este efecto pueden verse en el diseño de algunos sistemas de sonido que tienen altavoces pequeños: al utilizar una combinación particular de frecuencias más altas, permite al oyente experimentar tonos bajos que el altavoz ni siquiera es físicamente capaz de producir.
Respuesta corta:
Utilice la más baja de sus frecuencias, también conocida como fundamental, para representar el tono.
Respuesta completa:
En primer lugar, merece la pena señalar que muchos sonidos que constan de muchas frecuencias no tienen tono en absoluto. Por ejemplo, el sonido de un acorde de piano o el siseo de una radio con mala recepción. En casos como estos, sí que hay muchas frecuencias, pero pas tener un lanzamiento. Hay demasiadas cosas en el sonido como para representarlo con un solo número.
Ahora pasemos a los sonidos en los que puede identificar un lanzamiento, como en los ejemplos que has dado. En una cuerda de guitarra pulsada o en una voz humana, el sonido constaría de una fundamental y sus armónicos. En frecuencias de los armónicos serían múltiplos enteros de la fundamental. Y los amplitudes de los armónicos, en relación con los de la fundamental, conforman colectivamente el timbre. Por eso el mismo Do central suena distinto cuando lo toca una guitarra que cuando lo canta un ser humano.
Para este tipo de sonidos, el único número que describe su tono es la frecuencia de la fundamental. Ése es el número que buscas.
Una posdata sobre "Lo fundamental que falta"
En un comentario, Michael Seifert señalaba el curioso caso del fundamental desaparecido. Es posible sintetizar un sonido que contenga sólo los matices pero omite lo fundamental. (El Página de Wikipedia sobre el fenómeno también menciona algunos sonidos naturales en los que la fundamental está muy atenuada).
Cuando eso ocurre, una ilusión auditiva en el cerebro humano puede hacer que un ser humano oiga una fundamental aunque no esté en el espectro. A continuación un vídeo de YouTube para mostrar el fenómeno.
Cuando falta la fundamental, el tono percibido suele ser, aunque no siempre, el máximo común divisor de los armónicos. Informalmente, esto es lo que la fundamental sería hubiera sido si no era desaparecida.
La definición técnica y cuantitativa del tono sólo se aplica a los "sonidos únicos", como las notas musicales. En este caso, el tono es la frecuencia fundamental.
Sin embargo, cuando se aplica a "sonidos múltiples" colectivamente, como una voz o todas las notas de las que es capaz un instrumento, el significado es sólo cualitativo. En este contexto, el término más correcto para cuantificar el "tono" sería el de "gama", que se explica por sí mismo, mientras que "tono" se refiere a un vago sentido cualitativo de lo que es dominante en la gama.
Si quieres una métrica cuantitativa más específica que la gama, probablemente tendrás que inventarte una y dar a conocer la métrica.
Por ejemplo, se podría reducir un poco el rango mencionado hasta que más del 50% de la potencia promediada en el tiempo esté contenida dentro de cierta desviación estándar durante la "producción normal de sonido" (es decir, sin falsete).
Si lo que busca es una sola cifra, quizá sea el componente de frecuencia que produce la mayor potencia media en el tiempo durante la producción normal de sonido. También es posible que tengas que compararlo con la sensibilidad del oído humano.
En física, el tono alto se traduce en frecuencias altas y el tono bajo en frecuencias más bajas en el espectro de frecuencias del sonido. por ejemplo, en el gráfico del espectro que aparece a continuación:
la señal tiene la mayor parte de su potencia reunida en torno a 300KHz. la forma de conseguir ese espectro para una señal, sea de voz o no, es utilizar la transformada de Fourier sobre la señal dada. para responder a tu pregunta, el espectro auditivo humano va de 20Hz a 20KHz. aunque el espectro del habla es mucho menor, siendo para las mujeres de 165-255Hz y para los hombres 85-155Hz para ver las frecuencias de los tonos de las notas musicales ver: https://en.wikipedia.org/wiki/Scientific_pitch_notation Espero que esto le dé una pista de lo que está buscando.
Olvídate de las series de Fourier por un rato. El tono no tiene nada que ver con las frecuencias de los componentes sinusoidales. Es sólo la frecuencia de la frecuencia de repetición de la oscilación de la señal por unidad de tiempo . Tenemos una señal $u(t)$ y nos interesa su periodicidad, es decir, la constante $\tau$ tal que $$u(t+\tau) = u(t)\quad \forall t.$$ La frecuencia, o tono, de $u$ es entonces simplemente el recíproco: $\nu = \tfrac1\tau$ .
Esto plantea al menos tres problemas:
- En el mundo real, ninguna señal es verdaderamente periódico. Siempre habrá al menos pequeñas pertubaciones: literalmente ruido, pero también efectos como el decaimiento de la amplitud con el tiempo o similares. Así que lo que deberíamos buscar es $u(t+\tau) = u(t)+\varepsilon\ \forall t$ para un número de $\varepsilon$ .
- $\tau$ no es único. En particular, una señal que se repite después de un tiempo $\tau$ también se repite después de un tiempo $2\times\tau$ etc. En $\varepsilon$ La permisividad lo hace aún peor, ya que una señal continua siempre cambiará sólo una pequeña cantidad en un tiempo suficientemente corto.
- En realidad, tampoco podemos tener señales infinitamente largas. Justo al comienzo de una nota de guitarra no es periódica en absoluto, más bien tienes un transitorio .
Pero aún así: para señales como la voz o la flauta o lo que sea, en realidad tenemos periodicidad a lo largo de un tiempo sustancial (del orden de un segundo) con cientos de oscilaciones completas que son aproximadamente iguales. El tono como frecuencia de repetición es una noción sensata. En la práctica, para determinar $\tau$ se utiliza el autocorrelación de la señal.
De nuevo, nada de esto se basa en la descomposición de Fourier, aunque las implementaciones típicas de la autocorrelación utilizan una transformada rápida de Fourier porque es computacionalmente más eficiente que llevar a cabo directamente la integración en el espacio-tiempo.
En la mayoría de las señales de instrumentos musicales, por ejemplo, la frecuencia de periodicidad es igual al parcial de Fourier fuerte más bajo, es decir, el fundamental que en muchos casos es también el de mayor amplitud. Pero esto no es en absoluto universal: de hecho, es posible eliminar por completo la sin cambiar la periodicidad de la autocorrelación ni el tono percibido por el ser humano. Sólo cambia el timbre del sonido.
- Ver respuestas anteriores
- Ver más respuestas