Нейросети, создающие музыку по текстам и изображениям: как это происходит

Фото: Kandinsky 2.2

Искусственный интеллект становится все более творческим. Ему подвластны не только тексты и изображения, но и музыка, одно из самых сложных искусств. Рассказываем, какие нейросети пишут уникальные композиции

Содержание

Как это происходит
Подборка нейросетей
Музыка по фото
Тест Тьюринга
Что еще умеют нейросети

Как это происходит

Из истории компьютерной музыки

Компьютерные программы, владеющие нотной грамотой, не новинка: музыкальную композицию с использованием компьютера впервые создали в 1957 году. 17-секундную мелодию [1] назвали The Silver Scale, что переводится как «Серебряная чешуя». Автором был программист Ньюман Гутман.

За более чем полвека компьютерные алгоритмы стали более искусными. Нейросети научились сами писать музыку. До первых строчек хит-парадов этим песням еще далеко, да и без помощи человека все равно алгоритмам пока не справиться, но тем не менее результаты впечатляют.

После победы их страны на «Евровидении» 2019 года израильские программисты написали [2] трек с помощью искусственного интеллекта, загрузив в нейросеть песни с прошлых конкурсов. Результатом стала песня Blue Jeans and Bloody Tears, которую исполнил Изхар Коэн, первый израильский победитель конкурса 1978 года.

Идея оказалась не просто экспериментом: с 2020 года стали проводить конкурс AI Song Contest [3], где представляют музыкальные композиции, написанные искусственным интеллектом.

Blue jeans and bloody tears

(Видео: YouTube)

Генерация музыкальных произведений похожа на такой же процесс с картинками или текстами — нейросеть использует данные, по которым обучена. Например, если загрузить в библиотеки альбомы Queen, то и выдаваемые алгоритмом произведения будут похожи по стилю. Поэтому чем больше мелодий, жанров, исполнителей изучит нейросеть, тем разнообразнее и оригинальнее окажется результат.

Подходы для систем генерации

Есть два подхода [4] в генерации музыкальных композиций — создание нот либо аудиосигналов.

Создание нот: нейросеть выстраивает последовательность аккордов, нот, звуков, но такой подход не позволяет работать с тональностью звука и не может воспроизвести человеческий голос. В результате можно получить музыкальную партитуру, последовательность событий MIDI (распространенный стандарт цифровой звукозаписи), простую мелодию, последовательность аккордов, текстовое представление — символическую форму, по которой можно сыграть произведение.

При создании аудиосигналов написанием только нот программа не ограничена, здесь используются ритм, тембр, тональность. Но есть и большой минус для повседневного использования: у ПК, на котором будет запущена такая нейросеть, должна быть большая вычислительная мощность.

В основе алгоритмов для написания музыки, как правило, лежат автокодировщики и генеративно-состязательные нейросети (GAN).

Нейросеть-автокодировщик представляет данные в упрощенном виде, то есть сжимает первоначальные данные, отбрасывая несущественную для восприятия информацию. А потом на основе сжатой информации генерирует новые композиции.

Генеративно-состязательные нейросети создают музыкальную композицию на примере загруженных в базу треков и затем пытаются отличить оригинал от сгенерированного экземпляра. Здесь задействованы две модели — генератор и дискриминатор. Первый создает музыку, а второй пытается определить, где сгенерированное произведение, а где оригинал. Так они соревнуются друг с другом, чтобы генеративная модель могла создавать максимально правдоподобные композиции.

8 нейросетей для создания музыки

1. AIVA

Эта нейросеть появилась еще в 2016 году и с того времени продолжает совершенствоваться. У AIVA [5] даже вышел собственный альбом. Алгоритм также сочинил композицию, которая используется в видеоигре Pixelfield. Стартап запускали специально для написания мелодий для рекламы или видеоигр. Нейросеть создает собственные треки, корректирует готовые, пишет несколько вариаций одной песни. Стоимость — от €11 в месяц, разные тарифы зависят от целей.

Плюсы

бесплатная версия;
загрузка своей музыки для обучения нейросети на ней;
простой интерфейс;
создание клипов;
неограниченное количество новых аудиозаписей;
возможность не лицензировать созданные произведения.

Минусы

работа с нейросетью только после создания аккаунта;
авторские права на созданные композиции принадлежат площадке;
скачивание трех композиций в месяц;
ограничение по длине трека — три минуты;
формат загрузки — только MP3 и MIDI.

Как пользоваться

Зарегистрироваться на платформе и авторизоваться.
Чтобы создать свой музыкальный трек, нужно нажать на зеленую кнопку Create.
Выбрать стиль и в нужном поле снова нажать на кнопку Create.
Выбрать тональность, длину и количество композиций.

<p>Изображение сгенерировано нейросетью Kandinsky 2.2 по запросу «портретное фото девочки в костюме принцессы на фотоаппарат Olympus, правильная анатомия, детализированное лицо»</p>

Индустрия 4.0 Kandinsky 2.2: «Сбер» обновил нейросеть для генерации изображений

2. Soundraw

Очень простая программа, в которой можно вписать ключевые слова, жанр, темп будущего произведения и нейросети этого будет достаточно. Soundraw [6] предложит несколько вариантов, понравившийся можно доработать. Подойдет для создания аудиоконтента для роликов на YouTube, кино, рекламы, подкастов, видеоигр, социальных сетей. Стоимость — от $16,99 в месяц.

Плюсы

простой и понятный интерфейс;
нет ограничений по количеству созданных композиций;
изменение частей готовых мелодий;
бесплатная версия;
лицензия на скачанные треки;
сохранение авторских прав даже после отмены подписки.

Минусы

в бесплатной версии нельзя скачивать сгенерированные треки;
загрузки возможны только в формате WAV.

Как пользоваться

Зайти на сайт и нажать на кнопку Create music.
Вверху страницы выбрать длительность и темп композиции.
Затем ниже выбрать один из алгоритмов — mood, genre или theme.
Чтобы скачать трек, нужно нажать на белую стрелку в правом конце строки.

3. Soundful

Чтобы создать музыку в этой нейросети, потребуется минимальное участие человека. Нужно лишь указать несколько жанров и скорость. Регистрация очень простая, через аккаунт Google. Soundful [7] подойдет для тех, кому нужен контент для соцсетей или фоновая музыка, например для рекламных роликов. Стоимость подписки — от $9,99 в месяц.

Плюсы

есть бесплатная версия;
проста в освоении;
возможны коммерческое использование и публикация треков в социальных сетях;
есть индивидуальные шаблоны;
нет лимитов по количеству созданных треков.

Минусы

доступно небольшое количество жанров — всего 50 шаблонов;
в пробной версии можно скачать только десять треков в месяц.

Как пользоваться

Нажать команду Start for free, зарегистрироваться и создать профиль.
В окне профиля нажать на красный кружок с изображением звуковой дорожки или на кнопку Create.
В нижней части экрана выбрать жанр и тему композиции.
На панели кастомизации в нижнем правом углу можно выбрать настройки.
Ввести название мелодии и нажать Create preview.
Готовый трек можно скачать по команде Get, выбрать формат и нажать Render & download.

4. Jukebox

Нейросеть с открытым программным кодом Jukebox [8] была выпущена компанией OpenAI в 2020 году. С помощью этой программы можно имитировать разные музыкальные инструменты и даже человеческий голос. Эта нейросеть работает через создание аудиосигналов, а не нот, поэтому требует больших мощностей. Одна минута трека генерируется несколько часов. Чтобы пользоваться программой, необходимо обладать знаниями в программировании. Для обучения алгоритма в компании использовали 1,2 млн песен. Нейросеть бесплатна, в OpenAI предоставляют лицензию на использование в некоммерческих целях.

Плюсы

работа с вокалом и разными музыкальными инструментами;
создание действительно качественных треков;
код в открытом доступе: есть возможность скачать загрузочный файл и продолжить обучение алгоритма;
бесплатный доступ.

Минусы

чтобы пользоваться нейросетью, нужны навыки программирования;
нет возможности добавлять повторы припевов;
необходимо мощное оборудование и сервер;
треки генерируются очень медленно.

Как пользоваться

Сейчас Jukebox — это скорее исследовательский проект, и для публичного использования он пока недоступен. OpenAI представила также еще одну нейросеть для создания музыки, которой может пользоваться любой желающий, — MuseNet [9]. Но с 12 мая проект взят на доработку и пока недоступен.

Индустрия 4.0 15 бесплатных нейросетей для работы с картинками, видео и музыкой

5. Amper Music

Сервис Amper Music [10] очень прост и выглядит как облачная платформа. По заданным параметрам можно генерировать треки для фильмов, игр, рекламы. Можно выбрать из двух режимов работы: в простом — сгенерировать несложный трек по разным параметрам (например, продолжительность, эмоциональность, стиль); в сложном — использовать сгенерированные отрезки, выбирать музыкальные инструменты, темп. Есть бесплатная версия. Стоимость платной подписки — от $5, есть несколько тарифных планов с разным функционалом.

Плюсы

редактирование отдельных частей трека;
большой выбор настроек;
простой и понятный интерфейс.

Минусы

чтобы начать работу, нужно отправить запрос разработчикам и дождаться положительного ответа;
необходима платная подписка, чтобы использовать нейросеть в коммерческих целях.

Как пользоваться

Пройти регистрацию по e-mail.
Оплатить подписку, если нужен профессиональный интерфейс.
В бесплатной версии выбрать стиль и задать длительность композиции, в платной — необходимые дополнительные параметры.

6. Mubert

Чтобы сгенерировать трек в Mubert [11], нужно выбрать жанр, стиль и настроение мелодии или составить текстовый запрос на английском. В первом случае композиция будет готова уже через несколько секунд, чуть больше времени потребуется на генерацию с помощью текстового запроса. Очень простая в использовании программа; треки можно создавать как для личных, так и для коммерческих целей — в зависимости от тарифа. Стоимость — от $14, есть бесплатная версия.

Плюсы

генерация треков с помощью текстового запроса;
создание ремиксов;
генерация нескольких композиций одновременно;
доступность: регистрация не нужна;
создание множества треков, например в тарифном плане Creator — до 500 в формате MP3.

Минусы

работа с запросами только на английском языке;
генерация записей с указанием авторства алгоритма в бесплатной версии;
ограничение в бесплатной версии — не более 25 треков в месяц.

Как пользоваться

Нажать команду Generate a track now.
Написать текстовый запрос для нейросети или выбрать характеристики будущего произведения: стиль, жанр, настроение, продолжительность трека.
Нажать команду Generate track и дождаться окончания генерации.

Индустрия 4.0 Flair AI: что может нейросеть для маркетологов и дизайнеров

Нейросети, создающие музыку по фото

Нейросети научились создавать музыкальные произведения не только по текстовому описанию или набору характеристик, но даже по изображению. Сейчас есть несколько таких программ.

7. Image to Music

Довольно простая в использовании и бесплатная нейросеть [12] с понятным интерфейсом. Нужно загрузить картинку, установить параметры — скорость, тип, продолжительность.

Плюсы

простой и интуитивно понятный интерфейс;
бесплатное создание композиций;
возможность скачивания.

Минусы

небольшое количество параметров.

Как пользоваться

Загрузить в верхнюю форму изображение.
Внизу задать параметры: ключевые слова, продолжительность, зацикленность, интенсивность.

8. Imaginary Soundscape

Эта нейросеть [13] создает звуковой пейзаж. Например, если загрузить фото медведя в лесной чаще, то вы услышите, как зверь рычит, а на фоне шумит листва деревьев, а по фото горной реки нейросеть воспроизведет шум волн. Алгоритм придумали в Японии. Пользоваться Imaginary Soundscape можно бесплатно.

Плюсы

бесплатное создание композиций;
возможность использовать программу в качестве средства для релаксации, например генерировать музыку для медитаций;
обширная библиотека.

Минусы

сервис не подходит для обработки треков;
нельзя скачивать созданные композиции напрямую, но можно сохранить с помощью аудиоредактора.

Как пользоваться

Загрузить изображение в формате PNG или JPG размером до 5 Мб или скопировать ссылку на него и вставить в специальное поле.
Нажать на кнопку Submit. Звук будет сгенерирован за несколько секунд.

Тест Тьюринга

Чтобы определить, действительно ли хорошее произведение смог создать компьютер, можно использовать тест. Его создал ученый Алан Тьюринг в середине прошлого века. Тест работает так: человек взаимодействует и с компьютером, и с другим человеком, задает им вопросы. Тест пройден компьютером в том случае, если тот, кто спрашивает, не может отличить по ответам программу от человека.

По такому же принципу проводится и музыкальный тест Тьюринга: нейросеть проходит его, если произведение принимают за созданное человеком. Например, так протестировали [14] алгоритм DeepBach. Более 1,6 тыс. человек должны были послушать музыку и понять, где работа алгоритма, а где — Баха. Как оказалось, сделать это непросто: 50% испытуемых приняли работу компьютера за творчество композитора.

<p>Пример дизайна, сгенерированного нейросетью Looka</p>

Индустрия 4.0 Looka: как работает нейросеть для создания логотипов

Что еще умеют нейросети?

ИИ может генерировать не только музыку. Создание текстов уже давно освоили такие нейросети, как, например, ChatGPT и Bing. Однако все не так просто. Нейросети лучше работают с текстами на английском языке. Но и здесь требуется редакторская работа: помимо осмысленного текста для музыки важны ритмическая структура и рифмы, с чем у искусственного интеллекта часто возникают проблемы.

Тем не менее компании уже экспериментируют с созданием текстов для музыкальных композиций. Так, в 2016 году «Яндекс» выпустил альбом «Нейронная оборона», куда вошли песни в стиле «Гражданской обороны». Тексты для хитов написал искусственный интеллект [15]. Их озвучили авторы проекта, сотрудники «Яндекса», музыку написали также они. А через год в компании представили альбом Neurona с песнями в стиле группы Nirvana [16].

Имитировать человеческий голос нейросети тоже научились, тем более что это уже давно используется в организации работы call-центров или личных ассистентов вроде Siri. В 2016 году DeepMind представила алгоритм WaveNet, который реалистичным голосом озвучивает тексты на английском и китайском языках [17].

А в этом году Microsoft представила искусственный интеллект, имитирующий любой человеческий голос. Алгоритм назвали VALL-E — по аналогии с DALL-E, который создает изображения [18].

Обновлено 17.07.2024

Авторы

Теги

Татьяна Колосова

Нейросети Искусственный интеллект Внедрение инноваций