Попробуй спеть вместе со мной: как нейросеть воссоздала голос Виктора Цоя
Как работает технология: концерт группы «Кино» в 2021 году
Искусственный интеллект способен на многое, а если его соединить с технологией дипфейка, то можно даже увидеть, как Илон Маск поет песню «Земля в иллюминаторе». Самые простые махинации с чужим голосом можно сделать благодаря сервису Uberducki.ai. Достаточно вбить текст для озвучки и нажать на кнопку — искусственный интеллект сам все обработает и выдаст результат.
Чтобы группа «Кино» снова выступила на сцене в 2021 году, пришлось использовать более сложную технологию. Перепевать песни было бессмысленно, поэтому авторы идеи решили извлечь вокал Виктора Цоя из фонограмм и с помощью нейросети сделать акапелла.
Возможность реализовать это на практике появилась недавно — в ноябре 2020 года, когда компания Deezer выпустила Spleeter, позволяющий находить отдельные звуковые дорожки. Метод распознавания, заложенный в основу программы, уже давно используют в медицине для диагностики разных заболеваний, в том числе рака.
На воссоздание одной песни группы «Кино» в среднем у звукорежиссеров уходил один день. Иногда нейросеть сталкивалась с трудностями из-за технических сложностей, так как большинство песен были записаны на советские магнитофоны и включали в себя различные экспериментальные звуковые эффекты.
Но если вытащить голос Виктора Цоя из композиций уже получается, то исполнить новые песни в этом звучании пока невозможно. На сегодняшний день только теоретически существуют технологии, которые с помощью нейросети могут генерировать речь с полным восстановлением нужного звучания.
Музыка и нейросеть
Соединить музыку и нейросеть на самом деле довольно сложно, и этот процесс, скорее всего, никогда не станет автоматизированным. Музыка способна принимать разные вариации. Даже если обучить нейросеть определять бас-гитару, с креативной обработкой инструментальной игры машина вряд ли справится.
Попытки сделать что-то подобное уже были. Компания Dadabots хотела обучить нейросеть сочинять свои композиции в стиле групп «Сектор Газа», Queen и Михаила Круга. Но результаты оказались не очень удачными. То же произошло, когда программа Jukebox от OpenAI попыталась продолжить песню «Take on Me»: искусственный интеллект не справился даже со структурой песни и не сохранил мотив.
Недавно компания Amazon представила своего виртуального композитора, который буквально учится писать музыку, изучая инструменты и музыкальные формы. Но и эта технология пока далека от создания качественного звука.
Использование технологии и ее потенциал
Нужно отличать программируемых роботов от искусственного интеллекта, который может написать музыку. Конечно, если запустить программу и дать роботу барабанные палочки, он сможет исполнить свою партию. Но пока нет роботов, которые бы пели или играли на гитаре.
Возможности технологии машинного обучения тоже ограничены — они могут создавать только небольшие и несложные музыкальные отрывки. Пока что есть вариант использовать эти композиции в качестве базы для музыкальных библиотек, вот только это будет не очень востребовано — с теми же задачами вполне справляются живые люди, причем выходит это гораздо дешевле.
Тем не менее, потенциал у искусственного интеллекта в аудио и музыки все-таки есть. Если технология будет развиваться дальше, возможно, удастся восстановить записи, исчезнувшие во время пожара в студии Universal в 2008 году. Там в архивах хранились материалы с голосами Луи Армстронга, Эллы Фицжеральд, Элтона Джона и Билли Холидей.