В начале 2021 года компания Илона Маска OpenAI представила программное обеспечение DALL-E — разработчики смогли обучить нейронную сеть создавать изображения из коротких текстовых подписей. Программа, название которой имеет явные отсылки к художнику-сюрреалисту Сальвадору Дали и персонажу Wall-E из одноименного мультика, имеет в своей основе текстовый генератор GPT-3 (Generative Pre-Training), который компания представила в 2020 году.
С момента выхода DALL-E разные страны заинтересовалась данной разработкой, — например, в Китае подобный генератор появился под названием CogView. Наконец, генерировать изображения стало возможным и из текстов на русском языке, — в ноябре 2021 года команды SberAI, SberDevices, Самарского университета, AIRI и SberCloud представили проект ruDALL-E.
Сообщается, что обучение нейросети ruDALL-E стало самой большой вычислительной задачей в России. В настоящее время в open source уже доступны некоторые модели генератора, — ruDALL-E Malevich (XL), Sber VQ-GAN, ruCLIP Small и Super Resolution (Real ESRGAN).
По словам разработчиков, генерация изображений решает две важные задачи, которые не под силу решить поисковику, — во-первых, она позволяет учесть точное описание желаемого, а во-вторых, программа создает уникальные изображения, которые раньше не существовали. Их можно использовать для фото-иллюстраций статей, в копирайтинге и в рекламе. Команда РБК Трендов испытала нейросеть, «скормив» ей несколько описаний: