Чему научилась нейросеть Kandinsky за последние обновления

Изображение, сгенерированное версией нейросети Kandinsky 3.1 по промпту «Художник рисует картину, сидя в солнечной студии» (Фото: Kandinsky)

Весной 2022 года «Сбер» представил нейросеть Kandinsky. Впоследствии модель пережила несколько обновлений: в 2023-м вышла версия 2.1, в 2024-м — 3.1. Проверяем, как разные версии справляются с одними и теми же запросами

Содержание:

Что такое Kandinsky
Как будем экспериментировать
Что получилось

Что такое Kandinsky

Kandinsky — это нейросеть, разработанная для создания изображений на основе текстовых описаний. Она позволяет генерировать визуальные образы, которые соответствуют введенному тексту. Подобные нейросети работают с использованием моделей глубокого обучения. Эти модели обучены на огромных наборах данных, содержащих изображения и их текстовые описания.

Нейросеть названа в честь Василия Кандинского, знаменитого русского художника и основоположника абстракционизма.

Кроме Kandinsky существует несколько других нейросетевых моделей, которые работают по принципу генерации изображений на основе текстовых описаний, например DALL·E, Stable Diffusion, MidJourney.

Как будем экспериментировать

Для оценки прогресса Kandinsky мы протестируем несколько версий нейросети на одинаковых запросах, чтобы сравнить результаты и понять, насколько разработчики смогли улучшить модель.

Запросы (промпты) будут такие:

«Милый щенок играет в мячик на солнечной лужайке». Проверим движение, эмоции и создание живых сцен.
«Красный спортивный автомобиль на фоне заката у моря». Посмотрим, как модели справляются с яркими цветами и красивыми пейзажами.
«Человек в деловом костюме держит планшет в руках, крупный план». Проверим, как нейросеть изображает людей и их руки, включая детали.
«Ретротелевизор 1960-х годов показывает черно-белый фильм». Оценим реалистичность старинных предметов и их текстур.
«Космический корабль на орбите Юпитера». Проверим, насколько модели могут создавать масштабные и фантастические сцены.
«Портрет человека в стиле кубизм». Посмотрим, умеют ли модели работать с художественными стилями.
«Чашка капучино с красивым рисунком на пенке стоит на деревянном столе». Оценим реализм привычных предметов и текстур.
«Робот-гуманоид и человек пожимают руки в современном офисе». Проверим, как нейросеть изображает взаимодействие человека и техники, а также как она генерирует руки в более сложном сценарии.
«Дети играют в снежки во дворе хрущевки». Оценим, насколько реалистично Kandinsky передает российский быт и пейзажи.

Индустрия 4.0 Что такое промт, для чего он нужен и как правильно его написать

Что получилось

Для эксперимента будем использовать версию Kandinsky 2.1 и последнюю на момент выхода статьи версию Kandinsky 3.1. Они доступны на сайте с простым и удобным интерфейсом — можно повторить запросы самостоятельно. Другие промежуточные версии нейросети доступны здесь. Их можно запустить, например, через Google Colab.

Важно: при тестировании мы не углублялись в тонкости промпт-инжиниринга, а писали максимально простые запросы, как обычные пользователи.

Милый щенок

Наш текстовый промпт выглядел так: «Милый щенок играет в мячик на солнечной лужайке». Последняя модель Kandinsky 3.1 справляется намного лучше предшественницы, результат приближается к фотореализму, хотя и видны некоторые несоответствия результата промпту, например два мяча.

Kandinsky

Слева: изображение от Kandinsky 2.1. Справа: изображение от Kandinsky 3.1 (Источник: Kandinsky)

Красный спортивный автомобиль

Напомним промпт: «Красный спортивный автомобиль на фоне заката у моря».

Результат от модели Kandinsky 2.1 соответствует промпту, но изображение выглядит немного странно, так как автомобиль не вписан в общую перспективу пейзажа. Изображение от Kandinsky 3.1 получилось более цельным и детализированным: все элементы теперь логично взаимодействуют друг с другом.

Kandinsky

Слева: изображение от Kandinsky 2.1. Справа: изображение от Kandinsky 3.1 (Источник: Kandinsky)

Человек в деловом костюме

Руки — самая сложная деталь для нейросетей. С помощью запроса «Человек в деловом костюме, держащий планшет в руках, крупный план» проверим, как Kandinsky справляется с этой задачей.

У Kandinsky 2.1 получается плохо: анатомия рук не соблюдена, количество конечностей тоже.

У версии Kandinsky 3.1 получается лучше, но только на первый взгляд. При ближайшем рассмотрении видно, что руки по-прежнему выдают генерацию.

Kandinsky

Слева: изображение от Kandinsky 2.1. Справа: изображение от Kandinsky 3.1 (Источник: Kandinsky)

Чтобы удостовериться, что руки — действительно слабое место Kandinsky, а не запроса, попросим нейросеть Kandinsky 3.1 сгенерировать еще одно изображение по промпту «Женские руки с кольцами и маникюром, крупным планом». Видно, что пока Kandinsky не справляется с этой задачей.

Фото: Kandinsky

Ретротелевизор 1960-х годов

Создание изображений с привязкой к конкретной эпохе — не такая сложная задача для нейросетей, но сделать это достоверно им все еще непросто. Промпт звучал так: «Ретротелевизор 1960-х годов показывает черно-белый фильм».

Модель Kandinsky 2.1 справилась с задачей очень ограниченно: телевизор далек от реальных моделей, панель управления явно выдает генерацию, на экране ничего нет. Последняя версия Kandinsky справилась лучше. Изображение телевизора недостоверно, но способно передать общий образ техники эпохи 1960-х. Нейросеть достроила обобщенный интерьер и справилась с черно-белым фильмом на экране. Из недостатков — явно нарушена перспектива.

Kandinsky

Слева: изображение от Kandinsky 2.1. Справа: изображение от Kandinsky 3.1 (Источник: Kandinsky)

Космический корабль

Запрос «Космический корабль на орбите Юпитера» оказался неожиданно сложным для Kandinsky любой версии. В Kandinsky 2.1 Юпитер узнаваем, но космический корабль выглядит не так, как обычно его представляют. В версии Kandinsky 3.1 изображение и вовсе стало трудноразличимым, хотя Юпитер по-прежнему опознаваем.

Kandinsky

Слева: изображение от Kandinsky 2.1. Справа: изображение от Kandinsky 3.1 (Источник: Kandinsky)

Проверим работу модели 3.1 на еще одном промпте — «МКС летает на орбите Земли». Этот запрос тоже реализован недостаточно корректно. Нейросеть выдает фактические ошибки как при изображении МКС, так и при изображении очертаний континентов.

Фото: Kandinsky

<p>Изображение сгенерировано нейросетью Kandinsky 2.2 по запросу «портретное фото девочки в костюме принцессы на фотоаппарат Olympus, правильная анатомия, детализированное лицо»</p>

Индустрия 4.0 Kandinsky 2.2: «Сбер» обновил нейросеть для генерации изображений

Кубизм

Генерация изображений в стиле конкретных художников или направлений — еще один тест, с помощью которого можно оценить прогресс нейросети. Просим Kandinsky создать портрет человека в стиле кубизм.

Kandinsky

Слева: изображение от Kandinsky 2.1. Справа: изображение от Kandinsky 3.1 (Источник: Kandinsky)

Чашка капучино

Создание изображения чашки капучино с рисунком на пенке — задача, с которой нейросети справляются по-разному, но на таких повседневных объектах сразу видны недостатки генерации: нарушения логики изображения, пропорций, искажение деталей.

Kandinsky 2.1 изобразила чашку и рисунок с неожиданного ракурса, текстура стола выглядит неправильно, но общий образ чашки передан, хотя нейросеть и деформировала чашку — добавила вторую ручку (или неудачно сгенерировала блюдце).

Kandinsky 3.1 улучшила детали: стол выглядит более реалистично, рисунок на пенке четче, добавлены свет и блики, создающие атмосферу. Однако мелкие недочеты в тенях все еще заметны. Модель также пыталась добавить кофейную ложку к блюдцу, но получился дефект — ложка сгенерировалась не до конца.

Kandinsky

Слева: изображение от Kandinsky 2.1. Справа: изображение от Kandinsky 3.1 (Источник: Kandinsky)

Робот-гуманоид

Этим запросом проверяем, как нейросеть может изобразить взаимодействие человека с техникой и как получится сгенерировать руки, в частности рукопожатие. Промпт: «Робот-гуманоид и человек пожимают руки в современном офисе».

Ранняя версия нейросети поняла запрос, общий сюжет передан верно, но детали изображены плохо — из-за этого сложно оценить генерацию рук. Версия Kandinsky 3.1 справилась с задачей лучше: сюжет полностью соответствует промпту, но детали, особенно руки и рукопожатие, получились искаженными.

Kandinsky

Слева: изображение от Kandinsky 2.1. Справа: изображение от Kandinsky 3.1 (Источник: Kandinsky)

<p>Изображение сгенерировано по запросу «Ежик в тумане»</p>

Индустрия 4.0 Kandinsky Video и Kandinsky 3.0: что умеют новые нейросети

Старенькая хрущевка

Одно из преимуществ российских генеративных нейросетей — их чувствительность к контексту. По задумке, они должны лучше работать как с русским языком, так и с местными сюжетами.

В некоторых случаях это действительно так. Например, по запросу «национальное блюдо» на разных языках Kandinsky дает разные результаты. Вот такие, например, в версии 2.0:

Фото: Kandinsky

Попробуем сформулировать промпт, который должен привести к созданию чего-то знакомого из повседневной жизни. Например, «Дети играют в снежки во дворе хрущевки». Также мы сможем оценить, как нейросеть справляется с многофигурными сюжетами.

В картинке, сгенерированной Kandinsky 2.1, хорошо передана динамика игры, есть композиция, однако нейросеть выдала много дефектов в генерации людей, к тому же ошиблась фактически: на заднем плане явно изображена не хрущевка. Результат от Kandinsky 3.1 получился более целостным: чувствуется местный колорит, есть динамика движения, хотя игру без уточняющего промпта трудно распознать. Однако человеческие фигуры, особенно лица, проработаны плохо.