В США нейросеть обучили подбирать звуки для беззвучного видео

Фото: Shutterstock

Американские исследователи разработали алгоритм, который самостоятельно подбирает звуковое сопровождение к немому видео

Что происходит

Группа исследователей из Университета Карнеги-Меллон (штат Пенсильвания, США) и компании Runway создали алгоритм для озвучивания видео: в зависимости от картинки в кадре, нейросеть самостоятельно подбирает необходимые звуки.
Разработка получила название Soundify. Ее работа разделена на три этапа: сначала алгоритм обнаруживает источники звуки и классифицирует их — это могут быть конкретные объекты или места с характерным фоновым звуком (дорога, кафе и так далее).
Затем алгоритм использует базу данных Epidemic Sound, в которой содержатся около 90 тыс. звуков, для поиска необходимого звучания. Для каждой сцены Soundify подбирает по пять самых вероятных звуковых эффектов: один из них устанавливается по умолчанию, однако пользователь может включить дополнительные.
На втором этапе алгоритм устанавливает временные интервалы звучания каждого эффекта в зависимости от того, на протяжении какого времени объект находится в кадре.
На последней стадии нейросеть разбивает каждую сцену по секундам и подбирает необходимые параметры громкости для обеспечения реалистичности звучания.
Предполагается, что Soundify облегчит работу монтажеров с видео без звука — в первую очередь, это относится к съемкам с дронов, поскольку последние, как правило, лишены микрофона.

Пример видео, озвученного нейросетью

Что это значит

«Умные» алгоритмы в очередной раз доказывают свою эффективность в работе с массивными объемами данных. В данном случае нейросеть может значительно облегчить кропотливую и затратную по времени работу при подборе и монтаже звука в видео. Стоит отметить, что ранее ученые из Массачусетского технологического института и Стэнфордской лаборатории также пытались обучить нейросеть озвучивать видео, однако разработанная система искусственного интеллекта могла генерировать лишь те звуки, которые получаются при соприкосновении с объектом и ошибалась при быстром движении.

Индустрия 4.0 Нейронная соната: как искусственный интеллект генерирует музыку

До недавнего времени интерес исследователей в области нейронный сетей к звуковым эффектам ограничивался системами распознавания речи — большинство из нас знакомы с такими голосовыми помощниками как Siri (Apple), Alexa (Amazon) и Алиса («Яндекс»).

Стоит отметить, что ранее искусственный интеллект также обучили генерировать изображения на основе текстового описания, — в октябре 2021 года «Сбер» представил нейросеть ruDALL-E.