Четвертая промышленная революция, 18 июн 2021, 17:40

Вернуть голос: кто создает инклюзивные технологии для синтеза речи

Читать в полной версии
Фото: Shutterstock
Фото: Shutterstock
О том, как голосовые ассистенты учатся понимать несколько языков и почему нельзя сделать универсального помощника, рассказал ведущий YouTube-канала «РБК Тренды» Николай Дубинин
Время на чтение: 3–5 минут

Современные инклюзивные технологии

Не так давно в Японии появился гаджет, помогающий проводить экскурсии для людей с проблемами слуха и речи. Выглядит это так: микрофон, компьютер для распознавания речи и двухслойный прозрачный дисплей, с одной стороны которого расположены субтитры для слабослышащего, а с другой — превью для его собеседника. Разработчики считают, что их система гораздо лучше существующих способов для распознавания речи: голосовых помощников и специальных приложений.

Весной 2021 года на последней презентации компания Apple тоже показала инклюзивные функции своих устройств. В iOS 15 появится функция Sound Action, позволяющая настроить контроль смартфона или планшета таким образом, чтобы он воспринимал звуки, издаваемые с помощью губ и языка. Наушники AirPods также помогают людям с проблемами слуха — они усиливают громкость разговора и заглушают посторонний шум.

Разработчики Alexa от Amazon с помощью 1 тыс. видео обучили ассистента воспринимать жесты. Теперь чтобы общаться с Alexa, достаточно подключить камеру к «умной» колонке.

В России тоже активно развивают инклюзивные технологии. Например, «Яндекс.Разговор» может переводить устную речь в текст и обратно. Программа выводит все, что говорит пользователь на экран смартфона, а еще приложение может произносить вслух нужные слова.

Революция распознавания речи: технология Дмитрия Каневского

Систему, которая может распознавать и синтезировать речь, вместе с командой Google придумал россиянин Дмитрий Каневский. Дмитрий учился в России, читая людей по губам, а позже уехал в США и работал там над технологией, которая могла бы вернуть голос людям, которые уже не могут нормально говорить.

Сначала он создал приложение Live Transcribe, которое с помощью искусственного интеллекта переводит аудио в текст. Эта программа легла в основу синтезатора речи DeepMind — он не только распознает речь, но и воспроизводит голос человека таким, каким он был до того, как возникли проблемы или болезнь.

Так, обучившись на видео с интервью, программа смогла воссоздать голос бывшего игрока в американский футбол Тима Шоу, у которого в 2014 году диагностировали боковой амиотрофический склероз, который привел к параличу и атрофии мышц. Об истории Шоу и о том, как он смог вернуть себе голос в 2019 году YouTube Originals выпустил документальный фильм.

Как работает система синтеза речи

Система конвертирует звук голоса в колебания, а затем сопоставляет их с расшифровкой, оставляя метки для каждого слова. Для большинства слов программа создает карточки. Благодаря машинному обучению входящие звуки преобразуются в слова: алгоритм следует грамматическим и синтаксическим нормам, которые позволяют ему распознавать схожие звуки и не допускать ошибок.

Как технологии помогают людям с инвалидностью: подкаст РБК Тренды
Экономика инноваций 

Обучение голосовых ассистентов: при чем здесь видео YouTube?

Голосовые помощники «Алиса», «Салют» и Siri не подходят для распознавания речи людей с инвалидностью — система их просто не поймет, потому что эти ассистенты обучались на другом массиве данных. Данные для обучения — это основная проблема, с которой столкнулись разработчики. Система должна правильно распознавать речь, а для этого ей нужны примеры с транскриптом. Чтобы научить синтезатор, разработчикам пришлось использовать видео с субтитрами на YouTube — это платформа с самым большим количеством необходимых данных, причем на разных языках, акцентах и с стилями речи.

Вообще, субтитры на YouTube добавляют не только для того, чтобы сделать видео понятным и доступным для каждого пользователя. На самом деле расшифровка повышает охваты, так как выводит видео в более высокий ранг в поиске. Именно поэтому многие авторы пользуются хитростью и вместо реальных субтитров вставляют несуразные конструкции. Преодолеть это разработчики смогли с помощью фильтра, который самостоятельно находил качественно сделанные субтитры.

Тем не менее, в жизни могут возникнуть ситуации, которых система не встречала во время тренировок на примерах, поэтому она не сможет грамотно их интерпретировать. Если система реагирует неправильно, она меняет свой ответ.

Пока что невозможно сделать устройство синтеза речи, которое могло бы распознавать несколько языков одновременно. Но это и не является приоритетом для разработчиков. Основная задача сейчас — создать систему, понимающую, когда человек переходят с одного языка на другой, потому что часто в процессе разговора люди смешивают иностранные слова со словами из родного языка.

Четвертая промышленная революция Человек меняющийся Инклюзивность Нейросети Умный дом
Главное