Kandinsky Video и Kandinsky 3.0: что умеют новые нейросети

Изображение сгенерировано по запросу «Ежик в тумане» (Фото: Kandinsky 3.0)

На ежегодной конференции AI Journey «Сбер» представил Kandinsky 3.0 — обновленную версию нейросети для создания изображений, а также объявил о запуске Kandinsky Video — новой модели генерации видео по тексту

Содержание:

Возможности нейросети Kandinsky 3.0
Как пользоваться Kandinsky 3.0
Примеры использования
Возможности нейросети Kandinsky Video
Как пользоваться Kandinsky Video
Примеры использования

Возможности нейросети Kandinsky 3.0: улучшенная генерация изображений

Новую версию нейросети обучили на большом наборе данных из интернета формата «текст-картинка». Их отфильтровали по следующим показателям: эстетичность изображения, соответствие тексту, наличие дубликатов, фильтры разрешения и соотношение сторон. Количество используемых датасетов в Kandinsky 3.0 также было расширено.

Представители компании рассказали, что сделали Kandinsky 3.0 «более отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле. Улучшилось качество генерации российских и советских известных личностей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России, например, гжельской росписи. В качестве примера в блоге корпорации приводятся персонажи советских мультиков в представлении Kandinsky 3.0 и предыдущей версии — Kandinsky 2.2.

«Новая версия модели еще лучше понимает запросы от пользователей, научилась разбираться в тонкостях русской культуры и народного творчества, — рассказал на AI Journey первый зампред правления «Сбера» Александр Ведяхин. — Нейросети могут наделить человека сверхвозможностями, и Kandinsky, над совершенствованием которой мы постоянно работаем, — один из таких инструментов».

Редактирование и дополнение изображений

В Kandinsky 3.0 была добавлена inpainting-модель. C ее помощью можно редактировать изображения: менять отдельные объекты и целые области (inpainting) или расширять границы картинки, создавая панорамы (outpainting). По словам представителей «Сбера», задача inpainting намного сложнее стандартной генерации, потому что модели нужно научиться генерировать полноценное изображение не только с учетом текста, но и с опорой на фрагмент существующей картинки. Для создания этого режима специалисты компании консультировались с коллегами из Adobe.

<p>Изображение сгенерировано нейросетью Kandinsky 2.2 по запросу «портретное фото девочки в костюме принцессы на фотоаппарат Olympus, правильная анатомия, детализированное лицо»</p>

Индустрия 4.0 Kandinsky 2.2: «Сбер» обновил нейросеть для генерации изображений

Как пользоваться Kandinsky 3.0

Пользователи Kandinsky могут создавать по текстовому описанию (на более чем 100 доступных языках) изображения размером 1024х1024 пикселей или анимационные видеоролики разрешением 640x640 пикселей.

Есть шесть способов воспользоваться нейросетью Kandinsky 3.0:

на тестовом сайте нейросети Fusion Brain;
на сайте первой версии нейросети RuDALL-E;
в телеграм-боте нейросети;
в боте во «ВКонтакте»;
в сервисе «Сбера» GigaChat;
на всех умных устройствах «Сбера» по голосовой команде «Запусти художника».

Примеры использования Kandinsky 3.0

Кот Леопольд из советского мультика, рисунок акварелью

Крокодил Гена и Чебурашка из советского мультфильма, высокая детализация, реалистичное изображение

На подоконнике стоят кувшины, расписанные в стиле гжель

Что такое нейросеть Kandinsky Video

Kandinsky Video — это российская нейросеть для генерации видео. Она включает в себя два блока. Первый формирует ключевые кадры для структуры сюжета видео, а второй — промежуточные, благодаря которым создается плавность движения.

В блоге компании представители «Сбера» заявили: «Сейчас мы находимся на первом витке развития таких способов генерации видео, поэтому о высоком качестве результата речь пока не идет. Тем не менее, степень согласованности кадров на видео, визуальное качество объектов на ключевых кадрах, а также автоматические метрики позволяют утверждать, что наше решение сейчас является одним из лучших в мире. <...> С точки зрения исследований, впереди у нас огромный ряд задач, связанных как с повышением качества кадров, так и с улучшением динамичности и плавности движений, в том числе за счет исследования способов обучения модели физике движения тел».

Возможности нейросети Kandinsky Video

Kandinsky Video способна создавать создавать 8-секундные ролики с разрешением 512×512 пикселей, разным соотношением сторон и частотой 30 кадров в секунду. Нейросеть использует Kandinsky 3.0, чтобы генерировать сотни изображений, которые складываются и переходят друг в друга. В роликах от Kandinsky Video безостановочно двигаются как объекты, так и фон за ними. Специалисты «Сбера» обучили Kandinsky Video на наборе данных из 300 тыс. пар «текст-видео».

Как пользоваться Kandinsky Video

Пока нейросеть можно попробовать двумя способами: на тестовом сайте нейросети Fusion Brain или оставить заявку в телеграм-боте нейросети. Небольшой ролик генерируется несколько минут.