Нейросеть DALL-E и ее возможности: от цифрового фото до полотна Босха

Фото: Open AI

Нейросеть DALL-E позволяет создавать фотореалистичные изображения благодаря тому, что распознает контекст запроса пользователя. РБК Тренды выяснили, где можно применять нейросеть и как не нужно составлять запросы

DALL-E — одна из многих нейросетей, способных генерировать картинки по текстовому описанию. Однако в отличие от Midjourney и других конкурентов она еще и учитывает контекст описания, что делает результаты работы ИИ иногда пугающе реалистичными.

Содержание:

Что это
Как работает
Возможности
Как пользоваться
Минусы

Что такое Dall-E

DALL-E — это модель машинного обучения компании OpenAI, которая генерирует картинки по текстовым описаниям.

Работа нейросети строится на разработках OpenAI, связанных с генераторами текстов. В 2019 году компания создала модель под названием GPT-2, которая могла предсказывать следующее слово в тексте. Она распознавала 1,5 млрд параметров и была обучена на 8 млн веб-страниц. Спустя год вышла усовершенствованная модель GPT-3, которая и стала основой для создания DALL-E. По сути, новая нейросеть — это версия GPT-3 с 12 млрд параметров, обученная генерировать антропоморфных животных и людей, объекты, а также правдоподобно объединять несвязанные концепции и преобразовывать существующие изображения.

В марте 2023 года OpenAI представила еще более совершенную модель GPT-4, которая распознает не только текстовые описания, но и картинки. Однако ее пока не внедряли в качестве основы в генераторы изображений.

Название нейросети представляет собой комбинацию имени художника Сальвадора Дали и имени робота Валли из мультфильма Pixar. Разработчики объясняют, что оно отражает сплав искусства и цифровой анимации с использованием искусственного интеллекта.

Первую версию DALL-E представили в 2021 году. Спустя год OpenAI презентовала усовершенствованную версию DALL-E 2, которая предлагает более высокое качество изображений и новые возможности их преобразования. Кроме того, она поддерживает запросы на 107 языках, в том числе на русском. DALL-E использует 12 млрд параметров, в то время как DALL-E 2 работает с 3,5 млрд и дополнительными 1,5 млрд параметров для улучшения разрешения.

Первые результаты работы DALL-E по генерации картинок (Фото: openai.com)

В июле 2022 года DALL-E 2 выпустили для бета-тестирования. В сентябре OpenAI открыла доступ к нейросети для всех желающих. В ноябре компания сделала программное обеспечение нейросети доступным для разработчиков приложений. Тогда она сообщила, что DALL-E используют уже более 3 млн человек, а нейросеть генерирует более 4 млн изображений в день.

Экономика инноваций OpenAI: история компании-разработчика нейросети ChatGPT

Как работает Dall-E

DALL-E использует для генерации картинок нейронную сеть на основе преобразователя. Это тип машинного обучения, который понимает контекст и обрабатывает последовательности, чтобы создавать новые изображения по текстовым подсказкам. Модель постоянно обучается на новых данных.

Всего DALL-E состоит из трех нейросетей: CLIP (Contrastive Language–Image Pre-training), GLIDE и нейросети для увеличения разрешения картинки. Первая распознает текст и создает набросок будущего изображения, вторая превращает его в конечное изображение небольшого разрешения, а третья масштабирует картинку и добавляет детали.

Как это выглядит пошагово:

CLIP переводит текстовый запрос в набор чисел, которые связаны векторами. Векторы демонстрируют, насколько описанные пользователем категории близки между собой;
CLIP превращает этот набор цифр в таблицу, которая выполняет роль черновика изображения;
таблица передается GLIDE, которая преобразует текст в изображение. Вторая нейросеть сравнивает первоначальный набор чисел и таблицу CLIP, совмещая данные с них. Затем она создает финальное изображение через диффузную модель. Сначала появляется серый квадрат, состоящий из пиксельного шума, а затем из него поэтапно убирается шум, пока не вырисовывается картинка с нужным содержимым;

Процесс генерации картинки в DALL-E (Фото: arxiv.org)

картинка передается третьей нейросети, которая улучшает ее качество в 16 раз.

Как работает DALL-E

(Видео: YouTube)

Индустрия 4.0 Нейросеть ruDALL-E с нуля рисует картинки по описанию на русском. Галерея

Возможности нейросети Dall-E

Модель от OpenAI может не только генерировать картинки по запросу. Также она способна:

создавать сложные изображения путем смешивания разных концепций;
создавать похожие на оригинал картинки;
смешивать два изображения, чтобы получить третье;
дорисовывать фон исходного изображения благодаря функции Outpainting. Таким образом можно дополнять известные картины и развивать на них новые сюжеты;
изменять композицию, тени и текстуру картинки, добавлять и удалять объекты;
создавать фотореалистичные изображения;
редактировать фотографии.

Создание похожего изображения (Фото: openai.com)

DALL-E хорошо работает с абстракциями и даже генерирует «невозможные» геометрические фигуры.

Картинка по запросу «Стул, который не выглядит как стул» (Фото: openai.com)

<p>Разбираемся, как создать изображение с помощью нейросети</p>

Экономика инноваций Нейросеть рисует: 10 способов создать картинку по фото или описанию

Как пользоваться Dall-E

DALL-E потенциально можно применять в сферах образования, графического дизайна, медиа и маркетинга, архитектуры и даже для иллюстрации исследовательских работ.

Нейросеть уже используется на практике. Microsoft выпустила приложение Designer для графических дизайнеров с интеграцией DALL-E, а также расширение Image Creator для браузера Edge, которое позволит создавать картинки прямо в нем. Сервис стоковых изображений Shutterstock начал продавать созданные DALL-E 2 изображения. А авторы генерируют с помощью нее картинки для текстов в соцсетях и блогах. Dall-E также опробовали и в решении нестандартных задач, например, в генерации игровых локаций.

Как работает Image Creator

(Видео: YouTube)

Изображение сгенерировано нейросетью Midjourney по запросу «Дизайнер использует искусственный интеллект»

Экономика инноваций Зачем нужны технологии искусственного интеллекта и нейросети в дизайне

Вот как выглядят работы, выполненные с помощью DALL-E:

«Фотография склада с одним идеально сформированным облаком, плавающим в центре комнаты. Освещение одним прожектором, снято на Canon 5D Mark II» (Фото: iphones.ru)

Минусы DALL-E

Несмотря на широкий функционал, нейросеть работает неидеально.

Не умеет выдавать связные надписи. Картинка по запросу «Знак с надписью “Deep Learning”» (Фото: openai.com)

Также DALL-E нарушает авторские права, изредка выдавая оригинальные изображения из обучающей выборки.

В связи с этим рекомендуется:

не задавать длинные запросы со множеством деталей;
не использовать в запросах узкопрофессиональные и специфичные термины;
не употреблять отрицания с частицей «не», «без», «кроме».

Составить грамотный запрос к нейросети помогут специальные сервисы, такие как Promptomania, Phraser, Prompter, Prompt helper или Noonshot.

Обновлено 30.03.2023

Авторы

Теги

Мария Решетникова

Нейросети Искусственный интеллект Внедрение инноваций