Математика и гидродинамика: как ученые распознают аудиодипфейки

Фото: Shutterstock

Аудиодипфейки представляют собой еще большую угрозу, чем видеоподделки, так как выявить их гораздо сложнее. Исследователи ищут пути решения проблемы в математике и даже анатомии

Видео- и аудиодипфейки стали настолько реалистичными, что их обману поддаются даже крупные компании и медиа, не говоря уже об обычных пользователях. Чтобы выявить дипфейки, многие исследователи обратились к анализу визуальных артефактов на видео. Однако аудиодипфейки без картинки идентифицировать сложнее. Новые исследования пытаются решить и эту проблему. РБК Тренды рассказывают о самых перспективных разработках в этой сфере.

Распознавание дипфейков по звукам

Многие исследователи обращаются к поиску лишних звуковых элементов в поддельных голосовых записях. Американская Pindrop разработала метод распознавания аудиодипфейков по артефактам звучания. Позднее методику усовершенствовали, чтобы применять для выявления более сложных дипфейков. Алгоритм способен анализировать от 8 тыс. до 50 тыс. выборок данных в каждой секунде записи.

Метод нацелен на выявление артефактов или элементов звука, которых в аудиодипфейках быть не должно. Например, существуют фрикативные или щелевые согласные f, s, v и z. Системам глубокого обучения особенно сложно освоить звуки, возникающие при произнесении таких согласных, потому что программа принимает их за фоновый шум. В результате на поддельных записях эти согласные звучат иначе или вовсе пропускаются.

Индустрия 4.0 Фильмы, игры, подкасты: каким индустриям нужны голосовые дипфейки

Кроме того, алгоритмам сложно сгенерировать окончания слов, которые они принимают за фоновый шум. Из-за этого многие смоделированные записи резко прерываются в конце, тогда как человеческая речь звучит плавнее.

Прогнозирование вероятностей

Американская Resemble AI, которая ранее запустила платформу синтезирования аудиодипфейков, теперь разработала инструмент их распознавания.

Инструмент с открытым исходным кодом под названием Resemblyzer использует искусственный интеллект и машинное обучение для обнаружения дипфейков, получая высококачественные представления образцов голоса. Далее система прогнозирует, является ли он реальным или сгенерированным. Для этого она создает вектор из 256 значений, который обобщает характеристики голоса.

Resemblyzer сравнивает 12 неизвестных записей (6 настоящих и 6 поддельных) с эталонным звуком. Значения выше пунктирной линии говорят о том, что звук является реальным (Фото: github.com)

Resemblyzer работает примерно в 1000 раз быстрее в реальном времени, чем аналоги, а также распознает сторонние шумы в записях.

Гидродинамика в помощь

Журналисты The Conversation совместно с Университетом Флориды разработали метод, который измеряет акустические и гидродинамические различия между образцами голоса реальных людей и дипфейков. Исследователи использовали знания об анатомии голоса человека.

Измерить акустические свойства своего голоса можно, если анализировать звуки, которые человек производит с помощью голосовых связок, языка и губ. Анатомия человека не позволяет ему издавать более 200 таких звуков, таким образом, его диапазон достаточно небольшой.

Индустрия 4.0 Дипфейки: как трансформируется авторское право на контент

Напротив, аудиодипфейки создаются после того, как компьютер прослушивает набор аудиозаписей, чтобы извлечь ключевую информацию об уникальных аспектах голоса жертвы. Злоумышленник (в большинстве случаев) выбирает фразу, которая должна звучать в дипфейке, а затем использует модифицированный алгоритм преобразования текста в речь и генерирует сэмпл, который звучит так, как будто жертва произносит выбранную фразу.

Как формируется голосовой путь

(Видео: YouTube)

При создании аудиодипфейка компьютер проводит реконструкцию голосового пути человека. Однако воссоздать все его анатомические особенности ИИ не способен.

В итоге дипфейки имитируют формы голосового пути, которых просто нет у людей.

Некоторые из них такие же тонкие, как соломинка для питья, в отличие от человеческих голосовых путей, которые намного шире и более изменчивы по форме.

Выявление дипфейков по частотам голоса

Другие исследователи обращаются к физике, чтобы выявлять аудиодипфейки. Ученые Джоэл Франк и Леа Шонхерр из Института IT-безопасности Хорста Горца в Рурском университете Бохума разработали алгоритм, который позволяет отличить реальный голос человека от дипфейка по частоте.

Они собрали около 118 тыс. образцов синтезированных аудиозаписей голоса или 196 часов дипфейков на английском и японском языках. Чтобы набор данных был разнообразным, команда использовала шесть различных алгоритмов искусственного интеллекта при создании дипфейков. Они включали алгоритмы для детального частотного анализа аудиоданных.

Индустрия 4.0 Чек-лист: что делать, если ваше изображение использовали для дипфейка

После этого исследователи проанализировали распределение частот в реальных и поддельных аудиозаписях и сравнили их.

Это сравнение «выявило тонкие различия в высоких частотах между настоящими и поддельными файлами». По словам исследователей, разница была достаточно значительной, чтобы можно было выявить дипфейк.

Сравнение частот в реальных и поддельных аудиозаписях

(Видео: YouTube)

Разработанное программное обеспечение — это только начало, поскольку «алгоритмы предназначены для других исследователей в качестве отправной точки для разработки новых методов обнаружения дипфейков».

Классификация дипфейков

Некоторые исследовательские группы работают «на опережение», пытаясь не только создать механизм выявления дипфейков, но и их классификации. Исследователи испанского университета Малаги разработали поддельный набор аудиоданных. Его удалось создать путем анализа отклонений характеристик реального и поддельного звука. Используя созданный набор данных H-Voice, исследователи смогли построить модель машинного обучения для обнаружения поддельного звука. Модель в 98% точно определяет дипфейк.

Набор данных H-Voice включает 6672 визуализаций голосовых записей. Из них 2088 — поддельные и 2020 — оригинальные, а также 864, которые представляют собой их смесь. С помощью этого набора данных исследователи могут обучать, проверять и тестировать модели классификации дипфейков. Его можно использовать для выявления типа дипфейка, например, для того, чтобы определить, был ли он получен путем машинного обучения, с помощью методов имитации голоса или путем манипулирования реальным голосом.

Индустрия 4.0 Дипфейки: дезинформация или шаг в будущее?

Устойчивый ИИ

Исследователи также обращаются к анализу посторонних и неестественных шумов, которые могут присутствовать в голосовых подделках. Сингапурская DSO National Laboratories, которая специализируется на разработках в области обороны, развивает такие инструменты. Она разработала программу, которая оценивает неестественные эффекты в аудиозаписях — резкие паузы и внезапные изменения темпа речи. Кроме того, алгоритм устойчив к «враждебным шумам», специально встроенным в видео звукам, которые должны затруднить распознавание дипфейка.

Как работает программа распознавания дипфейков (Фото: DSO National Laboratories)

Выявление дипфейков с помощью математики

Отдельные ученые при исследовании аудиодипфейков применяют математику. Международная группа исследователей представила метод, который анализирует несколько секунд звука, чтобы определить, является ли он подлинной человеческой речью или дипфейком. Метод включает в себя четыре основных шага. Сначала исследователи применяют математическое правило к необработанным аудиосигналам. Затем они используют полученные коэффициенты Фурье для построения спектрограмм звуковых сигналов. После этого они анализируют спектрограммы с помощью нейросети и классифицируют их.

Исследователи задействовали набор данных из 120 тыс. аудио, который включал в себя и дипфейки, и записи речи реальных людей. На данном наборе они обучили нейросеть классифицировать звуки.

Затем исследователи задействовали быстрое преобразование Фурье (БПФ) — алгоритм ускоренного вычисления, позволяющий получить результат за время, меньшее, чем требуется для вычислений по формулам. Каждый полученный коэффициент они переводили в значение в децибелах. После этого для каждой звукозаписи выстраивали спектрограммы — изображения, показывающие зависимость плотности мощности сигнала от времени. Они передают информацию об интенсивности звукового сигнала в зависимости от времени и частоты. Одна ось спектрограммы отображает время, а другая — частоту. Интенсивность аудиосигнала представлена цветом в определенное время и на определенной частоте. Более яркие цвета, близкие к оттенкам желтого, указывают на большую интенсивность и громкость звуковых сигналов. С другой стороны, более темные цвета, близкие к оттенкам фиолетового или черного, указывают на меньшую интенсивность и низкую громкость звука. Нейронная сеть детально анализирует различные частотные диапазоны по спектрограмме, выявляя в них артефакты. Этот метод также может помочь в обнаружении видеодипфейков.