Kandinsky 2.1: как российская нейросеть генерирует изображения

Изображение, сгенерированное нейросетью по запросу «нейросеть Kandinsky 2.1».
Изображение, сгенерированное нейросетью по запросу «нейросеть Kandinsky 2.1». (Фото: Kandinsky 2.1)
РБК Тренды рассказывают, что умеет Kandinski 2.1 — российская нейросеть для генерации изображений

Содержание:



Стартовая страница программы.
Стартовая страница программы. (Фото: «Сбер»)

Что такое нейросеть Kandinsky 2.1

Kandinsky 2.1 — это третье обновление нейросети Kandinsky для генерации изображений, представленное в апреле 2023 года. Проект разработала команда исследователей Sber AI при поддержке ученых из Института искусственного интеллекта AIRI. С помощью Kandinsky 2.1 можно создавать визуал для блога или соцсетей, решать конкретные бизнес-задачи, связанные с дизайном, рекламой и маркетингом.

Все самые удивительные примеры, когда искусственный интеллект создает высококачественное фотореалистичное изображение по текстовому запросу, выполнены диффузионными моделями нейросетей. Kandinsky 2.1 — первая и единственная диффузионная модель, созданная в России, которая понимает сотню языков [1]. Она работает аналогично нейросетям Midjourney, Stable Diffusion и DALL-E 2. Диффузионные модели — подкатегория глубоких генеративных моделей, которые сначала размывают изображение, а потом пытаются его восстановить, генерируя тем самым данные, аналогичные тем, на которых они обучаются [2].

Примеры работ Midjourney, Stable Diffusion и DALL-E 2 по текстовому запросу.
Примеры работ Midjourney, Stable Diffusion и DALL-E 2 по текстовому запросу. (Фото: Marktechpost )

Если сравнивать Kandinsky 2.1 со своим предшественником — Kandinsky 2.0, то здесь существенно увеличено количество параметров (с 2 млрд до 3,3 млрд). Кроме того, эту модель дополнительно обучили на 170 млн пар «текст — изображение». По словам разработчиков, теперь модель создает еще более реалистичные и детализированные изображения, в которых качественно переданы различные тени, отражения и текстуры [3].

Всего за четыре дня после запуска сервиса Kandinsky 2.1 привлек 1 млн уникальных пользователей. Это превосходит показатели нашумевшей нейросети ChatGPT от OpenAI, которой потребовалось на это пять дней. За первые двое суток пользователи сгенерировали свыше 1,3 млн изображений. Самые популярные запросы первых дней — кот, любовь и космос. Также пользователи часто загружают шедевры живописи, чтобы создать их вариации [4].

Фото:Яндекс
Индустрия 4.0 Нейросеть Яндекса пишет письма и сочиняет сказки: главное о YandexGPT

Что умеет нейросеть Kandinsky 2.1

У Kandinsky 2.1 есть четыре режима работы:

Генерация по тексту

Например, вы можете написать «Средиземное море», выбрать стилистику «anime» и получить готовое изображение в заданной теме и стилистике.

Результат по текстовому запросу «Средиземное море» и стилистике «anime».
Результат по текстовому запросу «Средиземное море» и стилистике «anime». (Фото: Kandinsky 2.1)

Смешивание картинок

Вы можете загрузить две картинки и посмотреть, какой микс вам сделает Kandinsky 2.1. РБК Тренды попробовали объединить мемы «умиляющийся кот» и «упоротый лис».

Смешивание картинки и текста

Вы добавляете картинку и пишете слова, которые подскажут нейросети, что с ней делать. РБК Тренды попросили сервис смешать фотографию американского музыканта Принса с текстом «икона».

Вариации картинки

Этот инструмент позволяет сделать уникальную вариацию на базе исходного изображения. РБК Тренды загрузили картину Казимира Малевича «Голова крестьянина».

Как пользоваться нейросетью Kandinsky 2.1

Воспользоваться нейросетью Kandinsky 2.1 можно на нескольких платформах:

  • на облачной платформе Сбера ML Space;
  • в Telegram-боте;
  • на сайте fusionbrain.ai;
  • на сайте rudalle.ru;
  • в мобильном приложении «Салют» и на умных устройствах Sber по запросу «Включи художника».

Рекомендации по составлению текстового запроса в Kandinski 2.1:

  • назовите объект. Сопроводите его качественным прилагательным, определяющим его цвет, размер, настроение, текстуру и т.п. Желательно использовать не более трех прилагательных. Укажите, где объект должен находиться в пространстве: на небе, на дороге;
  • если хотите объединить какие-то объекты, напишите их через дефис: «кот-птица»;
  • добавьте дополнительные элементы (лучше что-то конкретное) или эффекты (свет, блестки, блюр);
  • напишите, в каком стиле хотите получить изображение.

Фото:Kandinsky 2.1
Индустрия 4.0 15 бесплатных нейросетей для работы с картинками, видео и музыкой

Плюсы и минусы нейросети Kandinsky 2.1

Плюсы:

  • не требуется регистрация;
  • полностью бесплатна;
  • хорошо работает с запросами на русском языке;
  • простой интерфейс;
  • создает картинки в более 20 разных стилях: от киберпанка до хохломы;

Минусы:

  • генерирует изображения в разрешении 768 × 768 пикселей, изменить настройки нельзя;
  • случаются проблемы с изображением людей: может «съехать» лицо, если оно изображено в профиль; может появиться третья нога, если в исходном фото сложная поза (скрестив ноги); могут плохо прорисоваться кисти рук (слишком длинные пальцы);
  • иногда возникают ошибки на сайтах и в телеграм-боте.
Обновлено 27.06.2023
Главная Лента Подписаться Поделиться
Закрыть