Искусственный интеллект, 05 фев, 14:20

Чему научилась нейросеть «Шедеврум» за два года

Читать в полной версии

Фото: «Шедеврум»

Два года назад «Яндекс» представил первую версию «Шедеврума». Посмотрим, чему научилась нейросеть с тех пор: сравним детали, композицию и узнаем, справилась ли она с главной проблемой — изображением рук

Что такое «Шедеврум» и какие были обновления

Нейросеть «Шедеврум» — это проект компании «Яндекс», который позволяет пользователям генерировать изображения и видео по текстовому описанию с помощью нейросети YandexART. Сервис был представлен в 2023 году и прошел несколько этапов развития:

5 апреля 2023 года — прототип приложения с обучением на 240 млн изображений.
15 июня 2023 года — интеграция большой языковой модели YandexGPT, что увеличило возможности сервиса.
28 августа 2023 года — возможность генерации коротких видео для активных пользователей.
18 октября 2023 года — интеграция нейросети YandexArt для создания изображений и видео.
4 сентября 2024 года — YandexART научилась создавать пятисекундные видео с движущимися объектами.

Возможности генерации картинок в приложении значительно улучшились после интеграции с нейросетью YandexART. Также в «Шедеврум» была интегрирована нейросеть YandexGPT. Эта модель использует большие объемы данных и сложные алгоритмы для анализа текста и создания визуального контента.

Благодаря YandexGPT «Шедеврум» может создавать изображения и видео с высокой степенью детализации и реалистичности. Модель учитывает контекст и стиль текста, чтобы создать изображение или видео, которые соответствуют описанию.

В месяц релиза — в апреле 2023 года — мы тестировали возможности самой первой версии нейросети, спустя два года повторяем промпты (текстовые запросы к нейросети) и смотрим, как изменились результаты.

Что изменилось

Сравниваем картинки, которые получаются в приложении «Шедеврума» первой и последней версий.

Докторская колбаса с крыльями в лучах света

По этому промпту заметен явный прогресс в качестве генерации. Первая версия (слева) фокусируется на абстрактной, минималистичной интерпретации запроса, создавая простой и символичный образ. Вторая версия, напротив, показывает более глубокое понимание контекста и детализацию: сцена становится реалистичной и насыщенной, с добавлением дополнительных элементов и сложного освещения. Эти изменения отражают улучшение алгоритмов нейросети, позволяющее создавать сложные композиции.

Чему научилась нейросеть Kandinsky за последние обновления

Экономика инноваций

Дарт Вейдер танцует диско

На первом изображении связь с танцем и диско минимальна. Нейросеть сохраняет образ Дарта Вейдера в каноничном стиле, сдержанном и серьезном. Он стоит в статичной позе, окруженный штурмовиками, на фоне характерного футуристического интерьера. Танцевальный или диско-элемент отсутствует: движение, эмоции и атмосфера дискотеки не переданы, что указывает на ограниченное понимание креативного аспекта промпта.

Изображение справа показывает значительно более свободную интерпретацию. Хотя это все еще узнаваемый Дарт Вейдер, поза и общая композиция намекают на динамику и шоу. Поднятые руки и широкая стойка напоминают энергичное выступление, а яркие и теплые цвета в освещении создают настроение дискотеки. Вместо формального окружения появляется активная сцена, наполненная жизнью и праздничной атмосферой. Даже костюм Вейдера кажется более стилизованным, добавляя ощущение театральности и игры.

Версия 2.0 демонстрирует значительный прогресс в обработке абстрактных и творческих задач. Она не только интерпретирует танец, но и добавляет соответствующую атмосферу, превращая строгий образ Вейдера в нечто неожиданное и яркое, более точно соответствующее запросу.

Большой театр из кубиков LEGO

На иллюстрации, созданной в 2023 году, Большой театр представлен в традиционной архитектурной форме, с четкой привязкой к оригиналу. Кубики LEGO используются для передачи узнаваемого облика фасада с колоннами и скульптурной группой наверху. Цветовая палитра строго соответствует реальности, с акцентом на золотисто-желтые тона и драматическое освещение. Однако креативный подход ограничен: LEGO выступает здесь скорее как строительный материал, а атмосфера театра или зрелищности отсутствует.

На изображении этого года наблюдается гораздо более творческая интерпретация. Вместо традиционного фасада нейросеть создает сцену театра, где LEGO не просто материал, а активный инструмент для передачи деталей, текстур и богатства декора. Внутренний вид сцены с яркими занавесами и насыщенной цветовой палитрой напоминает театральное представление. Здесь чувствуется динамика и атмосфера праздника, создающая образ, более соответствующий ассоциации с театром как местом искусства.

Нейросеть рисует: 10 способов создать картинку по фото или описанию

Экономика инноваций

Саяно-Шушенская ГЭС, тилт-шифт-объектив

Первой версии удалось передать масштаб и индустриальный характер ГЭС, но изображение выглядит абстрактным. Эффект тилт-шифт-объектива (с помощью него плоскость фокусировки можно сдвинуть или наклонить, детализировать и размыть нужную часть фото) здесь выражен слабо: вместо характерного размытия переднего и заднего планов сцена слегка напоминает миниатюру. Детализация строений оставляет желать лучшего, многие элементы кажутся размытыми или нечеткими.

Вторая версия ушла еще дальше от исходного запроса. Прежде всего, изменилась сама композиция: вместо массивного индустриального сооружения на передний план вышел природный ландшафт, ГЭС почти неразличима. Размытие также исчезло, хотя композиция стала реалистичнее. В итоге более новая версия нейросети не смогла точно воспроизвести Саяно-Шушенскую ГЭС и эффект тилт-шифт-объектива.

Плакат о покорении космоса в наивном стиле

Левая картинка, созданная первой версией «Шедеврума», выглядит менее детализированной, с упрощенными формами и менее выразительными элементами. Позиционирование объектов хаотично, что создает эффект наивности, но снижает общее ощущение гармонии.

В правой картинке, созданной версией «Шедеврума» 2.0, значительно больше деталей: планеты имеют текстуры, ракета выглядит технически точнее, а композиция стала более сбалансированной. Это говорит об улучшении алгоритмов обработки деталей и способности удерживать фокус на ключевых объектах.

Porsche 901, фотореализм

Хотя более ранняя модель успешно создала узнаваемый образ Porsche 901, детализация оставляет желать лучшего. Отчетливо видны артефакты генерации, особенно на кузове и колесах. Цветовая гамма выглядит несколько блеклой, а окружение автомобиля не доработано.

Нейросеть последней версии показывает значительный прогресс. «Шедеврум» стала гораздо лучше передавать реалистичность. Кузов автомобиля выглядит гладким и блестящим, детали проработаны тщательно. Окружающая среда стала более детализированной, создавая атмосферу городской улицы. Цвета стали более насыщенными и контрастными.

Что такое промт, для чего он нужен и как правильно его написать

Индустрия 4.0

Кресло-авокадо

Первая версия демонстрирует базовые возможности нейросети в создании реалистичных объектов. Кресло-авокадо узнаваемо, но изображение страдает от недостатка детализации. Форма кресла несколько упрощена, текстура материала выглядит однородной, а цветовая гамма ограничена. Отсутствует ощущение объема и глубины.

Вторая версия показывает значительный прогресс в качестве генерации. Нейросеть демонстрирует более глубокое понимание запроса. Кресло выглядит объемным и реалистичным, текстура кожи передана с высокой точностью. Цветовая гамма стала более богатой, а освещение создает эффект глубины. Окружающая среда добавляет контекста и делает изображение более живым.

Фотореалистичный котенок играет с комочком бумажки

Хотя ранняя модель успешно создала образ котенка, играющего с бумажкой, детализация оставляет желать лучшего. Шерсть котенка выглядит несколько пластмассовой, а глаза кажутся стеклянными. Однако смысл промпта нейросеть уловила лучше — комочек бумажки выглядит подходящим для игры.

Но в целом изображение справа получилось более совершенным. Нейросеть стала гораздо лучше передавать реалистичность. Шерсть котенка она сделала пушистой и мягкой, а глаза — живыми и блестящими. Иллюстрация приближается к фотореализму, хотя спутать ее с настоящей фотографией пока невозможно.

Руки, играющие на пианино, крупным планом

В этом сравнении видно, что нейросеть во второй версии (справа) стала лучше справляться с деталями, но все еще испытывает трудности с изображением рук. На картинке слева (первая версия «Шедеврума») руки выглядят неестественно: пальцы искажены, пропорции нарушены, а клавиши пианино кажутся размытыми и неправильными.

Справа улучшилась общая четкость и реалистичность: клавиши прорисованы лучше, а композиция выглядит гармоничнее. Однако проблемы с руками остаются — пальцы все еще выглядят странно, их анатомия и положение на клавишах нереалистичны.

Читайте также:

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.

Автор

Анастасия Михалева

Искусственный интеллект Нейросети IT Будущее технологий