Stable Diffusion: как нейросеть создает работы в стиле киберпанк и Disney

Изображение, сгенерированное Stable Diffusion 3 по запросу «a portrait of girl in yellow on the farm in disney style, detailed, 8k»

Stable Diffusion отличается от конкурирующих нейросетей своей открытостью и способностью генерировать изображения высокого качества. В июне 2024 года разработчики выпустили третью версию нейросети — Stable Diffusion 3

Содержание:

Что такое
Как работает
Как установить
Как пользоваться
Как написать запрос
Результаты

Stable Diffusion занимает особое место в мире нейросетей. Ее авторы намеренно развивают свой проект открыто, чтобы его могло поддерживать сообщество энтузиастов. В итоге появились сотни модификаций нейросети, которые генерируют картинки в разных стилях.

Что такое Stable Diffusion

Stable Diffusion — это нейросеть от группы студии Stability.ai с открытым исходным кодом, которая позволяет генерировать изображения на основе текстового запроса, а также дорисовывать наброски и редактировать исходные картинки.

В основе Stable Diffusion лежит диффузионная модель, которая обучается поэтапно удалять лишнее из изображения-образца, и после нескольких итераций выдает результат. Диффузионные модели уже применяются для синтеза речи и трехмерной графики.

Как работает диффузия при генерации изображения в Stable Diffusion

(Видео: YouTube)

Изображение сгенерировано нейросетью Midjourney

Индустрия 4.0 Аватарки, логотипы, тексты в блоги: подборка интересных нейросетей

Stable Diffusion 3

Stable Diffusion выпустили в августе 2022 года, а в ноябре вышла улучшенная версия 2.0, которая предлагает картинки с разрешением 2048x2048 пикселей и больше. Она также адаптирована для создания цифрового арта. В апреле 2024 года появилась третья версия нейросети — Stable Diffusion 3. Согласно информации на сайте, SD3:

генерирует фотореалистичные изображения «с исключительной детализацией, цветом и освещением»;
понимает длинные и сложные запросы, композицию, действия персонажей и стили;
пишет качественный текст, старается не допускать много ошибок в правописании и интервалах между ними;
подходит для работы на стандартных потребительских графических процессорах без снижения производительности благодаря небольшому объему видеопамяти.

Портрет по запросу «a portrait of old man, cold color palette, muted colors, detailed, 8k»

Пейзаж по запросу «a landscape of sea, cold color palette, muted colors, detailed, 8k»

Как работает Stable Diffusion

Stable Diffusion включает в себя несколько моделей:

кодировщик текста — это специальная языковая модель-трансформер — получает на входе текст и переводит его в набор чисел, которые описывают каждое слово;
генератор изображений, который включает нейросеть UNet и алгоритм планирования. Он создает информацию об изображении;
декодер. Он рисует картину на основе полученной информации.

Как устроена Stable Diffusion (Фото: jalammar.github.io)

Индустрия 4.0 Что такое нейросеть: как устроен человеческий мозг «в цифре»

Stable Diffusion может:

генерировать картинки по текстовому описанию. При этом модель работает не с отдельными пикселями картинок, а с их сжатыми версиями, что экономит память на устройстве;
рисовать в стилях разных художников, начиная с эпохи Возрождения и заканчивая современными творцами «в цифре». Сообщество разработчиков уже развивает отдельные вариации нейросети, отличающиеся по стилю, например, Van-Gogh-diffusion, которая «рисует» в стиле Ван Гога. Также появляются варианты модели, которые генерируют картинки в определенном стиле, например, мультфильмов Disney;

Илон Маск в стиле Ван Гога (Фото: huggingface.co)

заменять объекты на изображениях и дорисовывать фон. С помощью функции Inpainting нейросеть подменяет любой объект на тот, который сгенерирует сама. А функция Outpainting позволяет дорисовывать готовое изображение и генерировать фон вокруг него;

Дорисовка картины «Девушка с жемчужной сережкой» (Фото: stable-diffusion-art.com)

дорисовывать скетчи. Stable Diffusion способна дополнить набросок деталями и фоном. Например, она пригодится, когда хочется превратить свои детские рисунки в произведения;

Исходное и конечное изображения детского рисунка (Фото: reddit.com / r / StableDiffusion)

создавать визуальные проекты. С помощью нейросети можно создавать покадровую анимацию и совмещать картинки в видеоролики;

Видеоролик «Путешествие во времени», созданный после 36 запросов к Stable Diffusion

(Видео: YouTube)

генерировать объекты и локации для видеоигр. Интеграция нейросети в игровой движок Unreal Engine с открытым кодом позволяет создавать внутриигровые предметы по описанию и помещать их в игровое пространство.

Отдельно разработчики развивают вариант Stable Diffusion под названием Riffusion для генерации музыки. Мелодии можно создавать как на основе предложенного шаблона, так и с помощью текстового описания.

Экономика инноваций OpenAI представила GPT-4: новая модель обрабатывает изображения и текст

Как пользоваться Stable Diffusion 3 в онлайне

Нейросетью можно воспользоваться онлайн. Для этого нужно:

зайти на сайт;
ввести запрос на английском языке;
при желании выставить дополнительные настройки в разделе Advanced Settings;
нажать Run;
скачать изображение.

Генерация на сайте — бесплатная.

Как установить Stable Diffusion

Для загрузки Stable Diffusion нужен компьютер на операционной системе Windows или Linux с видеокартой, минимальный объем памяти которой составляет 4 или 8 Гб. Существуют два популярных установщика для этих ОС:

CMDR2’s 1-Click Installer. Проект доступен на GitHub, его нужно скачать на диск C. В папке проекта требуется дважды кликнуть на Start Stable Diffusion UI.cmd. Установщик занимает 25 Гб на жестком диске. В CMDR2 можно выбрать количество сгенерированных изображений по запросу, количество шагов, размер и формат изображения, модификации изображения, а также модель Stable Diffusion. Нейросеть генерирует отдельные части изображения, исключает объекты и выполняет детализацию;

Интерфейс CMDR2’s 1-Click Installer (Фото: github.com)

NMKD GUI для Windows. Установщик нужно скачать с официального сайта разработчиков, затем требуется извлечь архив и запустить установочный файл, активировав все галочки. Программа занимает 11 Гб на жестком диске. NMKD поддерживает запрос через картинку-референс, обрабатывает несколько запросов одновременно, улучшает качество изображений, создает бесшовные изображения.

Интерфейс NMKD GUI (Фото: nmkd.itch.io)

Разработчики также выпустили приложение Diffusion Bee на базе Stable Diffusion, которое работает на компьютере без подключения к интернету. Пока оно доступно только на Mac с чипами Apple Silicon. Для такого приложения нужен компьютер с видеокартой емкостью от 4 ГБ памяти.

Интерфейс Diffusion Bee (Фото: diffusionbee.com)

Как написать запрос для Stable Diffusion

Чтобы картинка оправдала ожидания, нужно следовать нескольким правилам при составлении текстового запроса к Stable Diffusion:

соблюдать порядок слов — наибольший вес получают самые первые;
использовать основные категории, которые должны быть в запросе: предмет, характер изображения (цифровое фото, масляная живопись и т. д.), стиль (сюрреализм, конструктивизм), художник, веб-сайт, разрешение, дополнительные детали, цвет, стиль освещения;
подробно описывать идею, чтобы она отличалась от других генераций. Однако запрос должен укладываться в 75 слов;
использовать синонимы, чтобы нейросеть точнее воспроизвела атмосферу.

«Вес» каждого слова в описании можно выставить вручную после двоеточия. При этом общий вес должен равняться 100.

Также в Stable Diffusion можно использовать настройки (обычно выводятся сбоку от окна генерации):

Steps — сколько шагов понадобится нейросети для генерации. По умолчанию это значение равно 50;
Classifier Free Guidance — насколько свободна нейросеть в интерпретации запроса. Значение по умолчанию равно 7 — половину нейросеть придумает сама;
Seed — старт для самостоятельной работы нейросети. По умолчанию стоит «случайный» параметр, чтобы она выводила разные результаты при одном запросе;
Resolution — размер изображения. Чем он больше, тем дольше будет длиться генерация. Stable Diffusion обучена на картинках 512×512 и генерирует такие изображения лучше всего.

Продвинутые пользователи рекомендуют по умолчанию выставлять универсальную комбинацию: CFG — 8, Steps — 50, Sampler — k_lms, Random seed.

Для тех, кто хочет углубиться в особенности построения запросов и пользоваться специальными командами, доступны подробные гайды.

Также можно пользоваться бесплатными промптерами, которые помогают составить запрос, например, Public Prompts, PromptoMania, Stable Diffusion Modifier Studies, Lexica Art и другими.