Нейросети, 12 ноя 2021, 11:30

Фильмы, игры, подкасты: каким индустриям нужны голосовые дипфейки

Читать в полной версии
Фото: Unsplash
Клонирование голоса придумали не так давно, но технология уже показывает впечатляющие результаты, и это не только пародии на знаменитостей. РБК Тренды разобрались, кому и как помогают дипфейки, а также в чем их угроза

Дипфейк — это имитация видео, аудио или фотографии, которая кажется подлинной, но является результатом манипуляций с помощью технологий искусственного интеллекта (ИИ). Ян Гудфеллоу, директор по машинному обучению в Apple Special Projects Group, придумал термин «дипфейк» в 2014 году, еще когда был студентом Стэнфордского университета. Понятие родилось в результате соединения первой части deep learning (с англ. «глубинное обучение») и слова fake («подделка»)

Дипфейки создает генеративно-состязательный алгоритм. Он учится, подобно человеку, на собственных ошибках, как бы соревнуясь с самим собой. Система «ругает» алгоритм за ошибки и «поощряет» за правильные действия, пока он не выдаст максимально точную подделку.

Ученые доказали влияние системы штрафов на точность прогнозов нейросети
Индустрия 4.0 

С развитием технологий ИИ создание дипфейков становится все проще. Чтобы получить речевой клон, достаточно записывать свой голос в течение некоторого времени, избегая оговорок и других помех, а затем отправить полученный файл на обработку компании, которая предоставляет такую услугу, либо самостоятельно загрузить его в специальную программу. Десятки стартапов уже предлагают подобные услуги, в том числе Resemble, Descript, CereVoice Me и другие.

Пару лет назад наиболее реалистичные дипфейки создавались путем записи голоса человека, разделения его речи на составляющие звуки и их последующего объединения для получения новых слов. Теперь нейросети можно обучить на наборе речевых данных любого качества и объема благодаря принципу состязательности, который обязывает их определять речь реального человека быстрее и точнее. В итоге, если раньше системам требовались десятки или даже сотни часов звука, то теперь реалистичные голоса можно сгенерировать из всего лишь нескольких минут аудиоконтента. Компании стремятся к коммерциализации технологии и уже предлагают ее для применения в некоторых сферах.

Для рекламы, фильмов и дубляжа

Компания Veritone весной 2021 года запустила сервис MARVEL.ai для создания и монетизации голосовых дипфейков. Она отмечает, что технология позволит влиятельным лицам, спортсменам и актерам лицензировать использование своих голосовых дипфейков для создания продуктов с их участием, например, рекламных роликов, без необходимости посещать студию. Компания гарантирует защиту такого дипфейка от незаконного копирования и использования с помощью встроенных «водяных знаков».

Презентация MARVEL.ai

Голосовые дипфейки, которые создает компания, можно адаптировать по тональности, менять пол говорящего, а также переводить текст на другие языки.

Microsoft в начале 2021 года предложила партнерам аналогичную услугу. На платформе Microsoft Azure AI можно синтезировать голоса знаменитостей, неотличимые от живых оригиналов. Например, американская телеком-компания AT&T встречает посетителей голосом Багза Банни в магазине впечатлений в Далласе. Он приветствует каждого гостя по имени и поддерживает с ними диалог во время покупок. Для озвучки Багза Банни актер записал для Microsoft 2 000 фраз.

Презентация магазина AT&T в Далласе

Для подкастов и аудиокниг

Технология голосовых дипфейков встроена в программное обеспечение для редактирования подкастов, разработанное американской фирмой Descript. Функция Overdub позволяет подкастеру создавать AI-клон своего голоса, чтобы продюсеры могли быстро редактировать выпуски. Функция помогает не только удалять ненужные слова, но и заменять их на новые. Чтобы пользоваться Descript, достаточно «наговорить» необходимый объем текста.

Как работает Descript

Инструмент уже использует компания Pushkin Industries, которая сотрудничает с подкастерами и аудиорассказчиками, такими как Малком Гладуэлл (Revisionist History), Майкл Льюис (Against the Rules) и Ибрам X. Кенди (Be Antiracist).

Дипфейк подкастера Джо Рогана

Угрозы голосовых дипфейков

Исследователи из Лаборатории SAND Чикагского университета протестировали программы синтеза голоса, доступные на платформе разработчиков с открытым исходным кодом Github. Выяснилось, что они могут обмануть голосовых помощников Amazon Alexa, WeChat и Microsoft Azure Bot.

Так, программе SV2TTS требуется всего 5 секунд для создания приемлемой имитации. Программа смогла обмануть бота Microsoft Azure примерно в 30% случаев, а 63% случаев дипфейк не смогли распознать голосовые помощники WeChat и Amazon Alexa. В случае с реальными добровольцами более половины из 200 человек не смогли угадать, что это дипфейк.

Исследователи видят в этом серьезную угрозу в плане мошенничества, а также атак на целые системы. Например, WeChat позволяет пользователям входить в учетную запись с помощью голоса, а Alexa позволяет использовать голосовые команды для выполнения платежей.

Подобные истории происходили уже неоднократно. В 2019 году мошенники использовали голосовой дипфейк, чтобы обмануть руководителя британской энергетической компании. Мужчина был уверен, что ему звонит начальник из Германии, и перевел мошенникам более $240 тыс.

Компании, которые предлагают дипфейки как услугу, не отрицают, что их могут использовать злонамеренно. При этом они предлагают услуги создания практически живых голосов. Так, стартап из Сан-Франциско Lyrebird заявляет, что может генерировать «самые реалистичные искусственные голоса в мире» с помощью программы Descript, которая создает речевой клон после загрузки минутной записи.

Проблема коммерческого использования голосовых дипфейков заключается в том, что права собственности на голос человека не существует ни в одной стране мира. Вопрос защиты прав умерших в отношении использования их голоса пока также остается открытым.

Цифровое бессмертие: как развивается индустрия Death Tech
Индустрия 4.0 

Кроме того, пока ни в одной стране мира не существует законодательной практики, которая могла бы повлиять на процедуру удаления дипфейков. В США и Китае только разрабатывают законы, регулирующие их использование. Так, в Калифорнии запретили использовать дипфейки в рекламе. В России борьбу с дипфейками в июле 2021 года включили в одну из дорожных карт «Цифровой экономики».

Исключением является только ситуация, когда имя человека зарегистрировано как коммерческий бренд. Это, как правило, знаменитости. В 2020 году американский YouTube-канал Vocal Synthesis разместил несколько сгенерированных юмористических записей начитки текстов рэпера Jay-Z без коммерческой выгоды. Все видео снабдили подписью о том, что речь знаменитости была синтезирована. Тем не менее, концертная компания RocNation, которая принадлежит Jay-Z, подала иск о нарушении авторских прав, и потребовала удалить видео. В итоге только два из четырех видео Jay-Z были удалены — было признано, что полученный в результате звуковой продукт является производной работой, не имеющей ничего общего ни с одной из песен рэпера.

Этические нюансы

Дипфейки можно использовать во благо. Однако возникают проблемы этического характера. Так, документальный фильм «Бегущий: Фильм об Энтони Бурдене» о шеф-поваре Энтони Бурдене и критики, и зрители назвали неэтичным. Его создатели использовали в фильме голос Бурдена, сгенерированный нейросетью, и озвучили им фразы, которые шеф-повар в реальности никогда не произносил. Кинокритики, которые не знали об этом при просмотре фильма, также осудили авторов и назвали их действия мошенничеством и манипулированием аудиторией.

Эпизод фильма о Бурдейле с дипфейком его голоса

Между тем, стартап Sonantic объявил, что создал голосовой клон актера Вэла Килмера, который почти не может говорить после трахеотомии, перенесенной в рамках лечения рака гортани. Компания использовала собственную ИИ-модель Voice Engine. Актер поблагодарил команду.

Дипфейк голоса Килмера от Sonantic

В Sonantic отмечают, что собственное приложение компании позволяет творческим группам вводить текст, а затем настраивать его ключевые параметры, в том числе высоту тона и темп.

Перспективы применения

Специалисты по работе с голосом и дикторы считают, что дипфейки могут быть реально полезны для механической обработки голоса — в мессенджерах, при создании объявлений и так далее, но они не могут конкурировать с живыми людьми там, где требуются эмоции. Однако компании работают и над этим. Resemble AI, например, уже предлагает использовать при создании дипфейка форму модуляции, которая изменяет интонацию и добавляет эмоции в речь.

Создание голосового дипфейка в Resemble AI

TikTok стал первой соцсетью, которая предложила функцию автоматической озвучки текстовых сообщений в конце 2020 года. Однако голос озвучки пришлось изменить. Оказалось, что синтезированный женский голос на самом деле принадлежит реальному человеку — актрисе озвучки Бев Стэндинг, которая ранее сотрудничала с Китайским институтом акустики. Женщина подала на TikTok в суд.

Как ни парадоксально, речевые дипфейки могут обеспечивать безопасность. Стартап Modulate тестирует технологию «скинов голоса», которая работает на основе алгоритмов машинного обучения и настраивает звуковые паттерны голоса человека, чтобы он звучал как кто-то другой. Чтобы научить свою технологию озвучивать множество разных тонов и тембров, компания собрала и проанализировала аудиозаписи сотен актеров, читающих сценарии. В Modulate заявляют, что их технология позволит людям безопасно общаться в игровых чатах и участвовать в других голосовых встречах онлайн.

Нейросети IT Четвертая промышленная революция Экономика впечатлений
Главное