Aquí está una imagen de las formas de onda de tres personas diciendo que la palabra "ramen." Los dos primeros son en realidad la misma persona en diferentes ocasiones, teniendo por lo tanto el mismo que el tono de su voz. La tercera es una mujer diciendo que la misma palabra "ramen". He modificado la duración de los clips de forma que todos ellos tienen la misma cantidad de tiempo en la general.
(haga clic para ampliar).
Si se mira muy de cerca, no es un segmento inicial de menos turbulencia (R) se transforma en un segmento con una gran cantidad de turbulencia (A) se transforma en lo que es esencialmente un puro de frecuencia (M), en el caso del hombre, un armónico; seguido por otro más áspero de revisión (E), seguido por otro "más pura" de la nota (N), que parece ser muy similar aunque un poco más suave, más prolongado, y posiblemente con un mayor entonado en cada caso.
Una cosa que es muy notorio es que la voz de mujer se va para arriba-y-abajo mucho más, que se manifiesta como su voz el tono más alto.
Otra cosa es esto de "turbulencia" materia: esta materia, y cualquier tipo de "ruido", que es un montón de diferentes frecuencias sucediendo a la vez. La oreja de hecho tiene una parte que se llama el "cóclea", que parece tener poco pelo que cada uno de ellos son un poco diferentes de la frecuencia de resonancia debido a sus diferentes ubicaciones en el órgano-tan diferentes frecuencias de vibración diferentes pelos en sus oídos! Es el patrón entero de cómo estos pelos vibrar juntos, lo que hace la diferencia entre la "a" sonidos en el Padre y el Padre, que son muy diferentes de las vocales, los sonidos (al menos en el inglés Americano!).
En general no hay dos números puros que distinguir un sonido puro (su frecuencia y amplitud), pero en su lugar hay dos funciones de frecuencia que distinguir un sonido puro. La primera función es la amplitud en función de la frecuencia, cualquier sonido puro, va a tener un montón de diferentes componentes en diferentes frecuencias! -- y el segundo parámetro es llamada la fase de las diferentes frecuencias. Los dos números son sólo vamos a distinguir dos ondas sinusoidales que empiezan en la fase, pero muy pocos de los sonidos que se escuchan son ondas sinusoidales y muy pocos de los sonidos que se escuchan son perfectamente en fase.
Desde una fase que está mejor representado como un ángulo con periódicos y cuasi-periódicos de formas de onda, la descripción natural de un sonido es en realidad en términos de una función que asigna a cada frecuencia de 2D a escala matriz de rotación , donde el ángulo de rotación es la fase y de la escala-que es el factor de la escala; es en 2D, ya que sólo necesita un ángulo. Tal escala de rotación de las matrices también son conocidos como números complejos y se llama a esta función el sonido de la transformada de Fourier, que se define como:
$$y[f] = \mathcal F_{t \to f}~y(t) = \int_{-\infty}^\infty dt~ e^{-2\pi i f t} y(t).$$ It turns out that this has a very cool property which is its "inverse transform"$$y(t) = \mathcal F^{-1}_{f\to t}~ y[f] = \int_{-\infty}^\infty dt~ e^{+2\pi i f t} y[f].$$En primer lugar, el hecho de que esto existe en todos los medios de que ambas fotos son 100% equivalente para cualquier tiempo de la señal: siempre podemos analizar lo que se ve en el dominio de la frecuencia. Segundo, el hecho de que su inversa se lleva casi exactamente de la misma forma nos permite reutilizar nuestro transformada rápida de Fourier trucos para construir un rápido inversa de la transformada de Fourier, por lo que estos se utilizan todo el tiempo en el procesamiento de la señal.
Cada voz humana contiene una línea de base diferente tono, un acento diferente (mapeo de palabras con sonidos reales!), en una fase diferente perfil, algunas opciones diferentes de armónicos. Es un testimonio de cuán poderoso nuestro cerebro es, y cuánto tiempo nos lleva a aprender un idioma, que incluso podemos reconocer que dos diferentes personas de diferentes lugares están diciendo la misma palabra! Pero obviamente, hay algunos patrones, como el simple "más pura" de la naturaleza de la M y N los sonidos, que nuestro cerebro puede "prenderse" en el fin de agrupar a los sonidos comunes. Así que no es imposible, es muy difícil.