Skip to main content

Команда Yandex Cloud уже некоторое время работает над сервисом синтеза и распознавания Yandex SpeechKit. На его основе была разработана новая модель нейросети, способная одновременно распознавать более 10 языков. Такой нейрополиглот можно использовать для быстрого создания голосовых помощников и роботов колл-центра, которые могут общаться на разных языках.

Нейросеть работает как с наиболее распространенными языками (английский и французский), так и с менее популярными (датский, финский, турецкий). Алгоритмы автоматически распознают речь в потоке на любую тему и могут переключаться между языками. Нейросеть понимает как короткие, так и длинные фразы, имена, адреса, даты и числа. Она постоянно учится и совершенствует свои навыки.

Новая модель работает на базе архитектуры Transformer, обрабатывая данные параллельно и независимо друг от друга. То есть речь на разных языках распознается отдельно. Обучение проводилось на десятках терабайт данных из профессиональных датасетов, а также на массивах данных сервисов Яндекса.

Нейросеть-полиглот доступна пользователям Yandex SpeechKit и настраивается стандартными средствами в API.

Оставить комментарий