Нейросеть DALL-E и ее возможности: от цифрового фото до полотна Босха

Фото: Open AI
Фото: Open AI
Нейросеть DALL-E позволяет создавать фотореалистичные изображения благодаря тому, что распознает контекст запроса пользователя. РБК Тренды выяснили, где можно применять нейросеть и как не нужно составлять запросы

DALL-E — одна из многих нейросетей, способных генерировать картинки по текстовому описанию. Однако в отличие от Midjourney и других конкурентов она еще и учитывает контекст описания, что делает результаты работы ИИ иногда пугающе реалистичными.

Содержание:

Что такое Dall-E

DALL-E — это модель машинного обучения компании OpenAI, которая генерирует картинки по текстовым описаниям.

Работа нейросети строится на разработках OpenAI, связанных с генераторами текстов. В 2019 году компания создала модель под названием GPT-2, которая могла предсказывать следующее слово в тексте. Она распознавала 1,5 млрд параметров и была обучена на 8 млн веб-страниц. Спустя год вышла усовершенствованная модель GPT-3, которая и стала основой для создания DALL-E. По сути, новая нейросеть — это версия GPT-3 с 12 млрд параметров, обученная генерировать антропоморфных животных и людей, объекты, а также правдоподобно объединять несвязанные концепции и преобразовывать существующие изображения.

В марте 2023 года OpenAI представила еще более совершенную модель GPT-4, которая распознает не только текстовые описания, но и картинки. Однако ее пока не внедряли в качестве основы в генераторы изображений.

Название нейросети представляет собой комбинацию имени художника Сальвадора Дали и имени робота Валли из мультфильма Pixar. Разработчики объясняют, что оно отражает сплав искусства и цифровой анимации с использованием искусственного интеллекта.

Первую версию DALL-E представили в 2021 году. Спустя год OpenAI презентовала усовершенствованную версию DALL-E 2, которая предлагает более высокое качество изображений и новые возможности их преобразования. Кроме того, она поддерживает запросы на 107 языках, в том числе на русском. DALL-E использует 12 млрд параметров, в то время как DALL-E 2 работает с 3,5 млрд и дополнительными 1,5 млрд параметров для улучшения разрешения.

Первые результаты работы DALL-E по генерации картинок
Первые результаты работы DALL-E по генерации картинок (Фото: openai.com)

В июле 2022 года DALL-E 2 выпустили для бета-тестирования. В сентябре OpenAI открыла доступ к нейросети для всех желающих. В ноябре компания сделала программное обеспечение нейросети доступным для разработчиков приложений. Тогда она сообщила, что DALL-E используют уже более 3 млн человек, а нейросеть генерирует более 4 млн изображений в день.

Фото:Freepik
Экономика инноваций OpenAI: история компании-разработчика нейросети ChatGPT

Как работает Dall-E

DALL-E использует для генерации картинок нейронную сеть на основе преобразователя. Это тип машинного обучения, который понимает контекст и обрабатывает последовательности, чтобы создавать новые изображения по текстовым подсказкам. Модель постоянно обучается на новых данных.

Всего DALL-E состоит из трех нейросетей: CLIP (Contrastive Language–Image Pre-training), GLIDE и нейросети для увеличения разрешения картинки. Первая распознает текст и создает набросок будущего изображения, вторая превращает его в конечное изображение небольшого разрешения, а третья масштабирует картинку и добавляет детали.

Как это выглядит пошагово:

  • CLIP переводит текстовый запрос в набор чисел, которые связаны векторами. Векторы демонстрируют, насколько описанные пользователем категории близки между собой;
  • CLIP превращает этот набор цифр в таблицу, которая выполняет роль черновика изображения;
  • таблица передается GLIDE, которая преобразует текст в изображение. Вторая нейросеть сравнивает первоначальный набор чисел и таблицу CLIP, совмещая данные с них. Затем она создает финальное изображение через диффузную модель. Сначала появляется серый квадрат, состоящий из пиксельного шума, а затем из него поэтапно убирается шум, пока не вырисовывается картинка с нужным содержимым;

Процесс генерации картинки в DALL-E
Процесс генерации картинки в DALL-E (Фото: arxiv.org)

  • картинка передается третьей нейросети, которая улучшает ее качество в 16 раз.

Как работает DALL-E
(Видео: YouTube)

Фото:DALL-E
Индустрия 4.0 Нейросеть ruDALL-E с нуля рисует картинки по описанию на русском. Галерея

Возможности нейросети Dall-E

Модель от OpenAI может не только генерировать картинки по запросу. Также она способна:

  • создавать сложные изображения путем смешивания разных концепций;
  • создавать похожие на оригинал картинки;
  • смешивать два изображения, чтобы получить третье;
  • дорисовывать фон исходного изображения благодаря функции Outpainting. Таким образом можно дополнять известные картины и развивать на них новые сюжеты;
  • изменять композицию, тени и текстуру картинки, добавлять и удалять объекты;
  • создавать фотореалистичные изображения;
  • редактировать фотографии.

Создание сложной картинки
Создание похожего изображения
Дорисовка картины «Девушка с жемчужной сережкой»
Добавление объекта на изображение
Создание сложной картинки
Создание похожего изображения
Дорисовка картины «Девушка с жемчужной сережкой»
Добавление объекта на изображение
Создание сложной картинки
Создание похожего изображения
Дорисовка картины «Девушка с жемчужной сережкой»
Добавление объекта на изображение

DALL-E хорошо работает с абстракциями и даже генерирует «невозможные» геометрические фигуры.

Картинка по запросу «Стул, который не выглядит как стул»
Картинка по запросу «Стул, который не выглядит как стул» (Фото: openai.com)

<p>Разбираемся, как создать изображение с помощью нейросети</p>
Экономика инноваций Нейросеть рисует: 10 способов создать картинку по фото или описанию

Как пользоваться Dall-E

DALL-E потенциально можно применять в сферах образования, графического дизайна, медиа и маркетинга, архитектуры и даже для иллюстрации исследовательских работ.

Нейросеть уже используется на практике. Microsoft выпустила приложение Designer для графических дизайнеров с интеграцией DALL-E, а также расширение Image Creator для браузера Edge, которое позволит создавать картинки прямо в нем. Сервис стоковых изображений Shutterstock начал продавать созданные DALL-E 2 изображения. А авторы генерируют с помощью нее картинки для текстов в соцсетях и блогах. Dall-E также опробовали и в решении нестандартных задач, например, в генерации игровых локаций.

Как работает Image Creator
(Видео: YouTube)

Изображение сгенерировано нейросетью Midjourney по запросу &laquo;Дизайнер использует искусственный интеллект&raquo;
Экономика инноваций Зачем нужны технологии искусственного интеллекта и нейросети в дизайне

Вот как выглядят работы, выполненные с помощью DALL-E:

&laquo;Дом на сваях в скале по проекту очень многих&raquo;
&laquo;Фотография склада с одним идеально сформированным облаком, плавающим в центре комнаты. Освещение одним прожектором, снято на Canon 5D Mark II&raquo;
&laquo;Плюшевые мишки, работающие над новыми исследованиями ИИ на Луне в 1980-х&raquo;
&laquo;Женщина, сидящая на природе, в стиле Моны Лизы&raquo;
&laquo;Постапокалиптический небоскреб, покрытый виноградными лозами, с городским тропическим лесом внизу&raquo;
Фреска в стиле Босха (автор не предоставил точного описания)
&laquo;Молодая красивая девушка в желтом кимоно с совой и перьями в волосах стоит в тропической теплице. Снято на зеркальную камеру&raquo;
&laquo;Альберт Эйнштейн в Зверополисе (2016)&raquo;
&laquo;Сюрреалистический крах банка&raquo;
&laquo;Схема вышивки кота, поедающего бургер&raquo;
&laquo;Дом на сваях в скале по проекту очень многих&raquo;
&laquo;Фотография склада с одним идеально сформированным облаком, плавающим в центре комнаты. Освещение одним прожектором, снято на Canon 5D Mark II&raquo;
&laquo;Плюшевые мишки, работающие над новыми исследованиями ИИ на Луне в 1980-х&raquo;
&laquo;Женщина, сидящая на природе, в стиле Моны Лизы&raquo;
&laquo;Постапокалиптический небоскреб, покрытый виноградными лозами, с городским тропическим лесом внизу&raquo;
Фреска в стиле Босха (автор не предоставил точного описания)
&laquo;Молодая красивая девушка в желтом кимоно с совой и перьями в волосах стоит в тропической теплице. Снято на зеркальную камеру&raquo;
&laquo;Альберт Эйнштейн в Зверополисе (2016)&raquo;
&laquo;Сюрреалистический крах банка&raquo;
&laquo;Схема вышивки кота, поедающего бургер&raquo;
«Дом на сваях в скале по проекту очень многих»
«Фотография склада с одним идеально сформированным облаком, плавающим в центре комнаты. Освещение одним прожектором, снято на Canon 5D Mark II»
«Плюшевые мишки, работающие над новыми исследованиями ИИ на Луне в 1980-х»
«Женщина, сидящая на природе, в стиле Моны Лизы»
«Постапокалиптический небоскреб, покрытый виноградными лозами, с городским тропическим лесом внизу»
Фреска в стиле Босха (автор не предоставил точного описания)
«Молодая красивая девушка в желтом кимоно с совой и перьями в волосах стоит в тропической теплице. Снято на зеркальную камеру»
«Альберт Эйнштейн в Зверополисе (2016)»
«Сюрреалистический крах банка»
«Схема вышивки кота, поедающего бургер»

Минусы DALL-E

Несмотря на широкий функционал, нейросеть работает неидеально.

Присваивает неправильные векторы объектам на изображении, из-за чего они располагаются неправильно. Картинка по запросу &laquo;Красный куб лежит на синем кубе&raquo;
Не умеет выдавать связные надписи. Картинка по запросу &laquo;Знак с надписью &ldquo;Deep Learning&rdquo;&raquo;
Выдает предвзятый контент. По запросу &laquo;СEO&raquo; нейросеть всегда выдает мужчин
Не справляется с фоном и мелкими деталями. Картинка по запросу &laquo;Две собаки, одетые как римские солдаты, на пиратском корабле смотрят на Нью-Йорк через подзорную трубу&raquo;
Неудачно генерирует лица и кисти рук, если речь идет о группе людей. Картинка по запросу &laquo;Семь инженеров, собравшихся вокруг белой доски&raquo;
Иногда неверно понимает запрос или не понимает его совсем. Картинка по запросу &laquo;Иллюстрация Солнечной системы в масштабе&raquo;
Присваивает неправильные векторы объектам на изображении, из-за чего они располагаются неправильно. Картинка по запросу &laquo;Красный куб лежит на синем кубе&raquo;
Не умеет выдавать связные надписи. Картинка по запросу &laquo;Знак с надписью &ldquo;Deep Learning&rdquo;&raquo;
Выдает предвзятый контент. По запросу &laquo;СEO&raquo; нейросеть всегда выдает мужчин
Не справляется с фоном и мелкими деталями. Картинка по запросу &laquo;Две собаки, одетые как римские солдаты, на пиратском корабле смотрят на Нью-Йорк через подзорную трубу&raquo;
Неудачно генерирует лица и кисти рук, если речь идет о группе людей. Картинка по запросу &laquo;Семь инженеров, собравшихся вокруг белой доски&raquo;
Иногда неверно понимает запрос или не понимает его совсем. Картинка по запросу &laquo;Иллюстрация Солнечной системы в масштабе&raquo;
Присваивает неправильные векторы объектам на изображении, из-за чего они располагаются неправильно. Картинка по запросу «Красный куб лежит на синем кубе»
Не умеет выдавать связные надписи. Картинка по запросу «Знак с надписью “Deep Learning”»
Выдает предвзятый контент. По запросу «СEO» нейросеть всегда выдает мужчин
Не справляется с фоном и мелкими деталями. Картинка по запросу «Две собаки, одетые как римские солдаты, на пиратском корабле смотрят на Нью-Йорк через подзорную трубу»
Неудачно генерирует лица и кисти рук, если речь идет о группе людей. Картинка по запросу «Семь инженеров, собравшихся вокруг белой доски»
Иногда неверно понимает запрос или не понимает его совсем. Картинка по запросу «Иллюстрация Солнечной системы в масштабе»

Также DALL-E нарушает авторские права, изредка выдавая оригинальные изображения из обучающей выборки.

В связи с этим рекомендуется:

  • не задавать длинные запросы со множеством деталей;
  • не использовать в запросах узкопрофессиональные и специфичные термины;
  • не употреблять отрицания с частицей «не», «без», «кроме».

Составить грамотный запрос к нейросети помогут специальные сервисы, такие как Promptomania, Phraser, Prompter, Prompt helper или Noonshot.

Обновлено 30.03.2023
Авторы
Теги
Мария Решетникова
Главная Лента Подписаться Поделиться
Закрыть