DALL-E — одна из многих нейросетей, способных генерировать картинки по текстовому описанию. Однако в отличие от Midjourney и других конкурентов она еще и учитывает контекст описания, что делает результаты работы ИИ иногда пугающе реалистичными.
Содержание:
Что такое Dall-E
DALL-E — это модель машинного обучения компании OpenAI, которая генерирует картинки по текстовым описаниям.
Работа нейросети строится на разработках OpenAI, связанных с генераторами текстов. В 2019 году компания создала модель под названием GPT-2, которая могла предсказывать следующее слово в тексте. Она распознавала 1,5 млрд параметров и была обучена на 8 млн веб-страниц. Спустя год вышла усовершенствованная модель GPT-3, которая и стала основой для создания DALL-E. По сути, новая нейросеть — это версия GPT-3 с 12 млрд параметров, обученная генерировать антропоморфных животных и людей, объекты, а также правдоподобно объединять несвязанные концепции и преобразовывать существующие изображения.
В марте 2023 года OpenAI представила еще более совершенную модель GPT-4, которая распознает не только текстовые описания, но и картинки. Однако ее пока не внедряли в качестве основы в генераторы изображений.
Название нейросети представляет собой комбинацию имени художника Сальвадора Дали и имени робота Валли из мультфильма Pixar. Разработчики объясняют, что оно отражает сплав искусства и цифровой анимации с использованием искусственного интеллекта.
Первую версию DALL-E представили в 2021 году. Спустя год OpenAI презентовала усовершенствованную версию DALL-E 2, которая предлагает более высокое качество изображений и новые возможности их преобразования. Кроме того, она поддерживает запросы на 107 языках, в том числе на русском. DALL-E использует 12 млрд параметров, в то время как DALL-E 2 работает с 3,5 млрд и дополнительными 1,5 млрд параметров для улучшения разрешения.
В июле 2022 года DALL-E 2 выпустили для бета-тестирования. В сентябре OpenAI открыла доступ к нейросети для всех желающих. В ноябре компания сделала программное обеспечение нейросети доступным для разработчиков приложений. Тогда она сообщила, что DALL-E используют уже более 3 млн человек, а нейросеть генерирует более 4 млн изображений в день.
Как работает Dall-E
DALL-E использует для генерации картинок нейронную сеть на основе преобразователя. Это тип машинного обучения, который понимает контекст и обрабатывает последовательности, чтобы создавать новые изображения по текстовым подсказкам. Модель постоянно обучается на новых данных.
Всего DALL-E состоит из трех нейросетей: CLIP (Contrastive Language–Image Pre-training), GLIDE и нейросети для увеличения разрешения картинки. Первая распознает текст и создает набросок будущего изображения, вторая превращает его в конечное изображение небольшого разрешения, а третья масштабирует картинку и добавляет детали.
Как это выглядит пошагово:
- CLIP переводит текстовый запрос в набор чисел, которые связаны векторами. Векторы демонстрируют, насколько описанные пользователем категории близки между собой;
- CLIP превращает этот набор цифр в таблицу, которая выполняет роль черновика изображения;
- таблица передается GLIDE, которая преобразует текст в изображение. Вторая нейросеть сравнивает первоначальный набор чисел и таблицу CLIP, совмещая данные с них. Затем она создает финальное изображение через диффузную модель. Сначала появляется серый квадрат, состоящий из пиксельного шума, а затем из него поэтапно убирается шум, пока не вырисовывается картинка с нужным содержимым;
- картинка передается третьей нейросети, которая улучшает ее качество в 16 раз.
Возможности нейросети Dall-E
Модель от OpenAI может не только генерировать картинки по запросу. Также она способна:
- создавать сложные изображения путем смешивания разных концепций;
- создавать похожие на оригинал картинки;
- смешивать два изображения, чтобы получить третье;
- дорисовывать фон исходного изображения благодаря функции Outpainting. Таким образом можно дополнять известные картины и развивать на них новые сюжеты;
- изменять композицию, тени и текстуру картинки, добавлять и удалять объекты;
- создавать фотореалистичные изображения;
- редактировать фотографии.
DALL-E хорошо работает с абстракциями и даже генерирует «невозможные» геометрические фигуры.
Как пользоваться Dall-E
DALL-E потенциально можно применять в сферах образования, графического дизайна, медиа и маркетинга, архитектуры и даже для иллюстрации исследовательских работ.
Нейросеть уже используется на практике. Microsoft выпустила приложение Designer для графических дизайнеров с интеграцией DALL-E, а также расширение Image Creator для браузера Edge, которое позволит создавать картинки прямо в нем. Сервис стоковых изображений Shutterstock начал продавать созданные DALL-E 2 изображения. А авторы генерируют с помощью нее картинки для текстов в соцсетях и блогах. Dall-E также опробовали и в решении нестандартных задач, например, в генерации игровых локаций.
Вот как выглядят работы, выполненные с помощью DALL-E:
Минусы DALL-E
Несмотря на широкий функционал, нейросеть работает неидеально.
Также DALL-E нарушает авторские права, изредка выдавая оригинальные изображения из обучающей выборки.
В связи с этим рекомендуется:
- не задавать длинные запросы со множеством деталей;
- не использовать в запросах узкопрофессиональные и специфичные термины;
- не употреблять отрицания с частицей «не», «без», «кроме».
Составить грамотный запрос к нейросети помогут специальные сервисы, такие как Promptomania, Phraser, Prompter, Prompt helper или Noonshot.