Индустрия 4.0

Kandinsky 2.1: как российская нейросеть генерирует изображения

Изображение, сгенерированное нейросетью по запросу «нейросеть Kandinsky 2.1». (Фото: Kandinsky 2.1)

РБК Тренды рассказывают, что умеет Kandinski 2.1 — российская нейросеть для генерации изображений

Содержание:

Что такое нейросеть Kandinsky 2.1
Возможности нейросети Kandinsky 2.1
Как пользоваться нейросетью Kandinsky 2.1

Стартовая страница программы. (Фото: «Сбер»)

Что такое нейросеть Kandinsky 2.1

Kandinsky 2.1 — это третье обновление нейросети Kandinsky для генерации изображений, представленное в апреле 2023 года. Проект разработала команда исследователей Sber AI при поддержке ученых из Института искусственного интеллекта AIRI. С помощью Kandinsky 2.1 можно создавать визуал для блога или соцсетей, решать конкретные бизнес-задачи, связанные с дизайном, рекламой и маркетингом.

Все самые удивительные примеры, когда искусственный интеллект создает высококачественное фотореалистичное изображение по текстовому запросу, выполнены диффузионными моделями нейросетей. Kandinsky 2.1 — первая и единственная диффузионная модель, созданная в России, которая понимает сотню языков [1]. Она работает аналогично нейросетям Midjourney, Stable Diffusion и DALL-E 2. Диффузионные модели — подкатегория глубоких генеративных моделей, которые сначала размывают изображение, а потом пытаются его восстановить, генерируя тем самым данные, аналогичные тем, на которых они обучаются [2].

Примеры работ Midjourney, Stable Diffusion и DALL-E 2 по текстовому запросу. (Фото: Marktechpost )

Если сравнивать Kandinsky 2.1 со своим предшественником — Kandinsky 2.0, то здесь существенно увеличено количество параметров (с 2 млрд до 3,3 млрд). Кроме того, эту модель дополнительно обучили на 170 млн пар «текст — изображение». По словам разработчиков, теперь модель создает еще более реалистичные и детализированные изображения, в которых качественно переданы различные тени, отражения и текстуры [3].

Всего за четыре дня после запуска сервиса Kandinsky 2.1 привлек 1 млн уникальных пользователей. Это превосходит показатели нашумевшей нейросети ChatGPT от OpenAI, которой потребовалось на это пять дней. За первые двое суток пользователи сгенерировали свыше 1,3 млн изображений. Самые популярные запросы первых дней — кот, любовь и космос. Также пользователи часто загружают шедевры живописи, чтобы создать их вариации [4].

Индустрия 4.0 Нейросеть Яндекса пишет письма и сочиняет сказки: главное о YandexGPT

Что умеет нейросеть Kandinsky 2.1

У Kandinsky 2.1 есть четыре режима работы:

Генерация по тексту

Например, вы можете написать «Средиземное море», выбрать стилистику «anime» и получить готовое изображение в заданной теме и стилистике.

Результат по текстовому запросу «Средиземное море» и стилистике «anime». (Фото: Kandinsky 2.1)

Смешивание картинок

Вы можете загрузить две картинки и посмотреть, какой микс вам сделает Kandinsky 2.1. РБК Тренды попробовали объединить мемы «умиляющийся кот» и «упоротый лис».

Смешивание картинки и текста

Вы добавляете картинку и пишете слова, которые подскажут нейросети, что с ней делать. РБК Тренды попросили сервис смешать фотографию американского музыканта Принса с текстом «икона».

Результат смешивания фотографии Принса с текстом «икона».

Вариации картинки

Этот инструмент позволяет сделать уникальную вариацию на базе исходного изображения. РБК Тренды загрузили картину Казимира Малевича «Голова крестьянина».

Вариация, которую создала нейросеть на базе картины.

Как пользоваться нейросетью Kandinsky 2.1

Воспользоваться нейросетью Kandinsky 2.1 можно на нескольких платформах:

на облачной платформе Сбера ML Space;
в Telegram-боте;
на сайте fusionbrain.ai;
на сайте rudalle.ru;
в мобильном приложении «Салют» и на умных устройствах Sber по запросу «Включи художника».

Плюсы и минусы нейросети Kandinsky 2.1

Плюсы:

не требуется регистрация;
полностью бесплатна;
хорошо работает с запросами на русском языке;
простой интерфейс;
создает картинки в более 20 разных стилях: от киберпанка до хохломы;

Минусы:

генерирует изображения в разрешении 768 × 768 пикселей, изменить настройки нельзя;
случаются проблемы с изображением людей: может «съехать» лицо, если оно изображено в профиль; может появиться третья нога, если в исходном фото сложная поза (скрестив ноги); могут плохо прорисоваться кисти рук (слишком длинные пальцы);
иногда возникают ошибки на сайтах и в телеграм-боте.

Обновлено 27.06.2023

Авторы

Теги

Теона Квачадзе

Нейросети Искусственный интеллект Россия Внедрение инноваций