
Что такое «Шедеврум» и какие были обновления
Нейросеть «Шедеврум» — это проект компании «Яндекс», который позволяет пользователям генерировать изображения и видео по текстовому описанию с помощью нейросети YandexART. Сервис был представлен в 2023 году и прошел несколько этапов развития:
- 5 апреля 2023 года — прототип приложения с обучением на 240 млн изображений.
- 15 июня 2023 года — интеграция большой языковой модели YandexGPT, что увеличило возможности сервиса.
- 28 августа 2023 года — возможность генерации коротких видео для активных пользователей.
- 18 октября 2023 года — интеграция нейросети YandexArt для создания изображений и видео.
- 4 сентября 2024 года — YandexART научилась создавать пятисекундные видео с движущимися объектами.
Возможности генерации картинок в приложении значительно улучшились после интеграции с нейросетью YandexART. Также в «Шедеврум» была интегрирована нейросеть YandexGPT. Эта модель использует большие объемы данных и сложные алгоритмы для анализа текста и создания визуального контента.
Благодаря YandexGPT «Шедеврум» может создавать изображения и видео с высокой степенью детализации и реалистичности. Модель учитывает контекст и стиль текста, чтобы создать изображение или видео, которые соответствуют описанию.
В месяц релиза — в апреле 2023 года — мы тестировали возможности самой первой версии нейросети, спустя два года повторяем промпты (текстовые запросы к нейросети) и смотрим, как изменились результаты.
Что изменилось
Сравниваем картинки, которые получаются в приложении «Шедеврума» первой и последней версий.
Докторская колбаса с крыльями в лучах света


По этому промпту заметен явный прогресс в качестве генерации. Первая версия (слева) фокусируется на абстрактной, минималистичной интерпретации запроса, создавая простой и символичный образ. Вторая версия, напротив, показывает более глубокое понимание контекста и детализацию: сцена становится реалистичной и насыщенной, с добавлением дополнительных элементов и сложного освещения. Эти изменения отражают улучшение алгоритмов нейросети, позволяющее создавать сложные композиции.
Дарт Вейдер танцует диско


На первом изображении связь с танцем и диско минимальна. Нейросеть сохраняет образ Дарта Вейдера в каноничном стиле, сдержанном и серьезном. Он стоит в статичной позе, окруженный штурмовиками, на фоне характерного футуристического интерьера. Танцевальный или диско-элемент отсутствует: движение, эмоции и атмосфера дискотеки не переданы, что указывает на ограниченное понимание креативного аспекта промпта.
Изображение справа показывает значительно более свободную интерпретацию. Хотя это все еще узнаваемый Дарт Вейдер, поза и общая композиция намекают на динамику и шоу. Поднятые руки и широкая стойка напоминают энергичное выступление, а яркие и теплые цвета в освещении создают настроение дискотеки. Вместо формального окружения появляется активная сцена, наполненная жизнью и праздничной атмосферой. Даже костюм Вейдера кажется более стилизованным, добавляя ощущение театральности и игры.
Версия 2.0 демонстрирует значительный прогресс в обработке абстрактных и творческих задач. Она не только интерпретирует танец, но и добавляет соответствующую атмосферу, превращая строгий образ Вейдера в нечто неожиданное и яркое, более точно соответствующее запросу.
Большой театр из кубиков LEGO


На иллюстрации, созданной в 2023 году, Большой театр представлен в традиционной архитектурной форме, с четкой привязкой к оригиналу. Кубики LEGO используются для передачи узнаваемого облика фасада с колоннами и скульптурной группой наверху. Цветовая палитра строго соответствует реальности, с акцентом на золотисто-желтые тона и драматическое освещение. Однако креативный подход ограничен: LEGO выступает здесь скорее как строительный материал, а атмосфера театра или зрелищности отсутствует.
На изображении этого года наблюдается гораздо более творческая интерпретация. Вместо традиционного фасада нейросеть создает сцену театра, где LEGO не просто материал, а активный инструмент для передачи деталей, текстур и богатства декора. Внутренний вид сцены с яркими занавесами и насыщенной цветовой палитрой напоминает театральное представление. Здесь чувствуется динамика и атмосфера праздника, создающая образ, более соответствующий ассоциации с театром как местом искусства.
Саяно-Шушенская ГЭС, тилт-шифт-объектив


Первой версии удалось передать масштаб и индустриальный характер ГЭС, но изображение выглядит абстрактным. Эффект тилт-шифт-объектива (с помощью него плоскость фокусировки можно сдвинуть или наклонить, детализировать и размыть нужную часть фото) здесь выражен слабо: вместо характерного размытия переднего и заднего планов сцена слегка напоминает миниатюру. Детализация строений оставляет желать лучшего, многие элементы кажутся размытыми или нечеткими.
Вторая версия ушла еще дальше от исходного запроса. Прежде всего, изменилась сама композиция: вместо массивного индустриального сооружения на передний план вышел природный ландшафт, ГЭС почти неразличима. Размытие также исчезло, хотя композиция стала реалистичнее. В итоге более новая версия нейросети не смогла точно воспроизвести Саяно-Шушенскую ГЭС и эффект тилт-шифт-объектива.
Плакат о покорении космоса в наивном стиле


Левая картинка, созданная первой версией «Шедеврума», выглядит менее детализированной, с упрощенными формами и менее выразительными элементами. Позиционирование объектов хаотично, что создает эффект наивности, но снижает общее ощущение гармонии.
В правой картинке, созданной версией «Шедеврума» 2.0, значительно больше деталей: планеты имеют текстуры, ракета выглядит технически точнее, а композиция стала более сбалансированной. Это говорит об улучшении алгоритмов обработки деталей и способности удерживать фокус на ключевых объектах.
Porsche 901, фотореализм


Хотя более ранняя модель успешно создала узнаваемый образ Porsche 901, детализация оставляет желать лучшего. Отчетливо видны артефакты генерации, особенно на кузове и колесах. Цветовая гамма выглядит несколько блеклой, а окружение автомобиля не доработано.
Нейросеть последней версии показывает значительный прогресс. «Шедеврум» стала гораздо лучше передавать реалистичность. Кузов автомобиля выглядит гладким и блестящим, детали проработаны тщательно. Окружающая среда стала более детализированной, создавая атмосферу городской улицы. Цвета стали более насыщенными и контрастными.
Кресло-авокадо


Первая версия демонстрирует базовые возможности нейросети в создании реалистичных объектов. Кресло-авокадо узнаваемо, но изображение страдает от недостатка детализации. Форма кресла несколько упрощена, текстура материала выглядит однородной, а цветовая гамма ограничена. Отсутствует ощущение объема и глубины.
Вторая версия показывает значительный прогресс в качестве генерации. Нейросеть демонстрирует более глубокое понимание запроса. Кресло выглядит объемным и реалистичным, текстура кожи передана с высокой точностью. Цветовая гамма стала более богатой, а освещение создает эффект глубины. Окружающая среда добавляет контекста и делает изображение более живым.
Фотореалистичный котенок играет с комочком бумажки


Хотя ранняя модель успешно создала образ котенка, играющего с бумажкой, детализация оставляет желать лучшего. Шерсть котенка выглядит несколько пластмассовой, а глаза кажутся стеклянными. Однако смысл промпта нейросеть уловила лучше — комочек бумажки выглядит подходящим для игры.
Но в целом изображение справа получилось более совершенным. Нейросеть стала гораздо лучше передавать реалистичность. Шерсть котенка она сделала пушистой и мягкой, а глаза — живыми и блестящими. Иллюстрация приближается к фотореализму, хотя спутать ее с настоящей фотографией пока невозможно.
Руки, играющие на пианино, крупным планом


В этом сравнении видно, что нейросеть во второй версии (справа) стала лучше справляться с деталями, но все еще испытывает трудности с изображением рук. На картинке слева (первая версия «Шедеврума») руки выглядят неестественно: пальцы искажены, пропорции нарушены, а клавиши пианино кажутся размытыми и неправильными.
Справа улучшилась общая четкость и реалистичность: клавиши прорисованы лучше, а композиция выглядит гармоничнее. Однако проблемы с руками остаются — пальцы все еще выглядят странно, их анатомия и положение на клавишах нереалистичны.
Читайте также:
➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.