Что происходит
- Группа исследователей из Университета Карнеги-Меллон (штат Пенсильвания, США) и компании Runway создали алгоритм для озвучивания видео: в зависимости от картинки в кадре, нейросеть самостоятельно подбирает необходимые звуки.
- Разработка получила название Soundify. Ее работа разделена на три этапа: сначала алгоритм обнаруживает источники звуки и классифицирует их — это могут быть конкретные объекты или места с характерным фоновым звуком (дорога, кафе и так далее).
- Затем алгоритм использует базу данных Epidemic Sound, в которой содержатся около 90 тыс. звуков, для поиска необходимого звучания. Для каждой сцены Soundify подбирает по пять самых вероятных звуковых эффектов: один из них устанавливается по умолчанию, однако пользователь может включить дополнительные.
- На втором этапе алгоритм устанавливает временные интервалы звучания каждого эффекта в зависимости от того, на протяжении какого времени объект находится в кадре.
- На последней стадии нейросеть разбивает каждую сцену по секундам и подбирает необходимые параметры громкости для обеспечения реалистичности звучания.
- Предполагается, что Soundify облегчит работу монтажеров с видео без звука — в первую очередь, это относится к съемкам с дронов, поскольку последние, как правило, лишены микрофона.
Что это значит
«Умные» алгоритмы в очередной раз доказывают свою эффективность в работе с массивными объемами данных. В данном случае нейросеть может значительно облегчить кропотливую и затратную по времени работу при подборе и монтаже звука в видео. Стоит отметить, что ранее ученые из Массачусетского технологического института и Стэнфордской лаборатории также пытались обучить нейросеть озвучивать видео, однако разработанная система искусственного интеллекта могла генерировать лишь те звуки, которые получаются при соприкосновении с объектом и ошибалась при быстром движении.
До недавнего времени интерес исследователей в области нейронный сетей к звуковым эффектам ограничивался системами распознавания речи — большинство из нас знакомы с такими голосовыми помощниками как Siri (Apple), Alexa (Amazon) и Алиса («Яндекс»).
Стоит отметить, что ранее искусственный интеллект также обучили генерировать изображения на основе текстового описания, — в октябре 2021 года «Сбер» представил нейросеть ruDALL-E.