7 votos

Turco de reconocimiento de voz (speech->text) en Google API de Voz?

Google Speech API de audio de voz a las capacidades de texto en varios idiomas. Es compatible con el turco. Que el lenguaje es muy interesante, es llamado aglutinante: palo de partes de la palabra uno tras otro en lugar de preposiciones y otras partes en idiomas como el inglés. Esto lleva a que prácticamente ilimitado tamaño de vocabulario.

¿Sabe usted cómo Google implementó turco de reconocimiento de voz para su API? No puedo creer que utiliza las mismas técnicas como en inglés.

ACTUALIZACIÓN

He aquí un ejemplo de transcripción que de la API de Google devuelve desde el siguiente clip de YouTube:

tendría que preguntarle a él no tengo ni idea de Yahoo respuestas que estaba Adán Scott realmente en Jumanji en El Show de Truman lo busqué en iTunes se dijo en películas de ella es que en la era de Jumanji y El Show de Truman no me * * * * creemos que va a escuchar lo que yo no estoy en ninguna de esas películas así que sí, de verdad que no tiene * * * *

Yo creo que es excelente la calidad de la transcripción. He utilizado mi hermosa AudioEngine monitores y poner una mierda de 20 años de edad LabTec micrófono en frente de ella. Un verdadero aficionado de instalación, pero es que estas cosas se utilizan en la práctica, es decir, en menos de situación ideal.

He aquí un ejemplo de un turco escena de película:

merhaba Temmuz Ben hoş geldin kardeş e nasılsınız keyifler iyidir inşallah Iyi valla koşturuyoruz nasıl olsun Dobladillo kardeş lafı uzatmadan konuya girsek anlattı bana ikinci el işçiliği Tabii sen güzel bir şey' yapıyor Dernek falan da işte ilişkin bir delikanlı eva gelip gidiyor

Este es, básicamente, incomprensible. Recoge algunas palabras aquí y allá, pero es difícil conectar con ellos a diferencia de ejemplo en inglés.

Esto no significa que Google no es el uso de una solución personalizada para el turco? Tal vez lo que desea para la reasignación de su idioma inglés motores de turco ?

Sólo por diversión, me envió un clip de idioma Azerí altavoz. Él discurso se enuncia claramente pero la API apenas tengo un par de palabras. He utilizado turco configuración, así que no es justo, realmente, pero las lenguas son similares:

o akşam Çağlayan Doruk sevgilin kim bu kim baktı Bülent Serttaş çok pis

3voto

Franck Dernoncourt Puntos 2128

Lo que se utiliza en la producción es a menudo no es revelada. No soy consciente de Google revelar cómo el actual automatizado de reconocimiento de voz (ASR), sistema que mediante la producción de obras. Una forma de aproximar sería para escanear ICASSP/Interspeech/etc. procedimiento para Google publicaciones.

De todos modos, poner Google de lado: la pregunta se puede generalizar como "Cómo realizar el ASR en idiomas con gran abiertas o diccionarios?".

Una manera de hacerlo es utilizar sub-palabra del lenguaje de modelado, por ejemplo, de {1}:

Resumen: En este estudio, algunas de las soluciones para salir de vocabulario (OOV) palabra problema de reconocimiento de voz automático (ASR) de los sistemas que se desarrollan para las lenguas aglutinantes como el turco, se examinan y una mejora a este problema se propone. Se ha demostrado que el uso de sub-palabra modelos de lenguaje que supera a los modelos basados en la palabra mediante la reducción de la OOV palabra en relación con los idiomas de morfología compleja.

o de {2}:

Resumen: turco de reconocimiento de voz de los estudios se han acelerado recientemente. Con estos esfuerzos, no solo de voz y de texto corpus que puede ser utilizado en el reconocimiento de experimentos, pero también propone nuevos métodos para mejorar la precisión ha aumentado. Aglutinante de la naturaleza de turco causas fuera de su vocabulario (OOV) problema en el amplio Vocabulario de Reconocimiento de Habla Continua (LVCSR) tareas. Con el fin de superar OOV problema, el uso de sub-unidades palabra ha sido propuesto. Además LVCSR experimentos, se han realizado algunos esfuerzos para implementar un reconocedor de voz en campos limitados tales como radiología. En este artículo, vamos a presentar turco software de reconocimiento de voz, el cual ha sido desarrollado mediante la utilización de estudios recientes. Tanto la interfaz de software y precisiones reconocimiento en dos diferentes conjuntos de la prueba se resume. El rendimiento del software, se ha evaluado el uso de la radiología y de la ampliación de vocabulario conjuntos de la prueba. Con el fin de resolver OOV problema prácticamente, nos proponemos adaptar modelos de lenguaje el uso frecuente de palabras o frases. En reconocimiento de los experimentos, el 90% y el 44% palabra precisiones se han logrado en la radiología y de la ampliación de vocabulario conjuntos de la prueba respectivamente.


Referencias:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X