Нейросеть ruDALL-E с нуля рисует картинки по описанию на русском. Галерея

Фото: DALL-E

SberAI представил российскую версию генератора изображений по текстовому описанию ruDALL-E — РБК Тренды разобрались, что из этого может получиться

В начале 2021 года компания Илона Маска OpenAI представила программное обеспечение DALL-E — разработчики смогли обучить нейронную сеть создавать изображения из коротких текстовых подписей. Программа, название которой имеет явные отсылки к художнику-сюрреалисту Сальвадору Дали и персонажу Wall-E из одноименного мультика, имеет в своей основе текстовый генератор GPT-3 (Generative Pre-Training), который компания представила в 2020 году.

С момента выхода DALL-E разные страны заинтересовалась данной разработкой, — например, в Китае подобный генератор появился под названием CogView. Наконец, генерировать изображения стало возможным и из текстов на русском языке, — в ноябре 2021 года команды SberAI, SberDevices, Самарского университета, AIRI и SberCloud представили проект ruDALL-E.

Фото:Изображение сгенерировано нейросетью midjourney по запросу «новые медиа»

Индустрия 4.0 Сможете угадать, что нарисовала нейросеть?

Сообщается, что обучение нейросети ruDALL-E стало самой большой вычислительной задачей в России. В настоящее время в open source уже доступны некоторые модели генератора, — ruDALL-E Malevich (XL), Sber VQ-GAN, ruCLIP Small и Super Resolution (Real ESRGAN).

По словам разработчиков, генерация изображений решает две важные задачи, которые не под силу решить поисковику, — во-первых, она позволяет учесть точное описание желаемого, а во-вторых, программа создает уникальные изображения, которые раньше не существовали. Их можно использовать для фото-иллюстраций статей, в копирайтинге и в рекламе. Команда РБК Трендов испытала нейросеть, «скормив» ей несколько описаний: