Как работает нейросеть SeamlessM4T: перевод аудио на 100 языков

Фото: Freepik
Фото: Freepik
Meta представила нейросеть SeamlessM4T, которая позволяет переводить аудио и текст на 100 различных языков. Ее уже назвали будущей заменой синхронных переводчиков

Содержание:

Компания Meta (признана экстремистской и запрещена в России) представила модель SeamlessM4T, которая переводит текст и аудио на другие языки. Модель способна работать с данными, в которых используется сразу несколько языков. Сама компания сравнивает свою модель с вавилонской рыбкой из книг Дугласа Адамса «Автостопом по галактике». РБК Тренды разобрались, как устроена и работает нейросеть.

Фото:Freepik
Индустрия 4.0 Что такое нейросеть: как устроен человеческий мозг «в цифре»

Что такое SeamlessM4T

SeamlessM4T — это базовая многоязычная и многозадачная модель искусственного интеллекта, которая переводит и расшифровывает голосовые записи и текст.

Возможности нейросети:

  • автоматическое распознавание речи на 100 языках;
  • преобразование речи в текст (доступно для 100 языков);
  • преобразование аудиозаписей в речь (для 100 языков ввода и 35 языков вывода);
  • текстовый перевод на 100 языков;
  • преобразование текста в речь (для 100 языков ввода и 35 языков вывода).

Возможности SeamlessM4T 
Возможности SeamlessM4T  (Фото: ai.meta.com)

Отличие модели заключается в том, что существующие системы преобразования аудио в речь и речи в текст охватывают лишь небольшую часть языков мира. Кроме того, SeamlessM4T выполняет сразу несколько задач, переводя текст в аудио и одновременно расшифровывая его, причем сразу для нескольких языков.

Как устроена и работает SeamlessM4T

Работа нейросети SeamlessM4T основана на более ранних разработках Meta. В 2022 году компания представила модель перевода текста No Language Left Behind (NLLB), которая поддерживает 200 языков. Вскоре после этого Meta представила универсальный переводчик речи на разные языки, поддерживающий в том числе и наречие хоккиен (тайваньский язык), не имеющее собственной письменности. Эти разработки создали основу для формирования масштабного набора данных на разных языках, который получил название SpeechMatrix.

Кроме того, Meta разработала технологию Massically Multilingual Speech, которая поддерживает автоматическое распознавание речи, идентификацию языка и технологию синтеза речи для более чем 1100 языков.

Для SeamlessM4T использовали многозадачную архитектуру модели UnitY, которая способна напрямую генерировать переведенный текст и речь. Она состоит из трех основных компонентов:

  • кодеры текста и речи. Они призваны распознавать аудиоввод почти на 100 языках. Речевой кодер w2v-BERT 2.0 был обучен на миллионах часов многоязычных записей. Он принимает аудио, разбивает его на более мелкие части и строит внутреннее представление того, о чем говорится в записи. Кодер анализирует длину звуков, чтобы сопоставить их с реальными словами;
  • текстовый декодер. Он передает закодированные значения, после чего модель преобразования текста переводит их в акустические единицы (доступно 35 языков, не считая английского);
  • многоязычный вокодер на архитектуре HiFi-GAN (Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, генеративно-состязательные сети для эффективного и высококачественного синтеза речи). Он преобразует эти единицы в речь.

Архитектура SeamlessM4T
Архитектура SeamlessM4T (Фото: ai.meta.com)

При обучении нейросети использовался подход «учитель-ученик». В этом подходе модель тренируют на каждом этапе ее построения при помощи полного набора размеченных данных, в котором примерам соответствуют определенные ответы. Для обучения использовались десятки миллиардов предложений из открытых источников в интернете, а также четыре миллиона часов аудио.

В итоге исследователи сформировали общедоступный обучающий корпус SeamlessAlign из 443 тысяч часов речи с расшифровками, а также 29 тысяч часов речи и аудио.

В предварительных тестах SeamlessM4T превзошла современные модели по показателям надежности работы. Так, в задаче перевода аудио с фоновым шумом она продемонстрировала улучшение на 37%. Кроме того, исследователям удалось снизить показатель токсичности текста на 63%.

Как пользоваться SeamlessM4T

Meta открыла доступ к бета-версии нейросети для всех желающих. Сайт работает и в России. Чтобы опробовать SeamlessM4T, нужно:

  • перейти на сайт seamless.metademolab.com, нажать кнопку Start Demo;
  • кликнуть Start Recording и записать аудио длиной до 15 секунд, желательно в условиях тишины;
  • выбрать языки для перевода (не более трех), кликнуть Translate;
  • на открывшейся странице появится три перевода: слева будут размещены текстовые версии, а справа — аудио.

Исследователи Meta предупреждают, что продолжают совершенствовать работу нейросети, поэтому пока ее переводы могут содержать неточности.

Обновлено 23.08.2023
Главная Лента Подписаться Поделиться
Закрыть