Чему научилась нейросеть «Шедеврум» за два года

Фото: «Шедеврум»
Фото: «Шедеврум»
Два года назад «Яндекс» представил первую версию «Шедеврума». Посмотрим, чему научилась нейросеть с тех пор: сравним детали, композицию и узнаем, справилась ли она с главной проблемой — изображением рук

Что такое «Шедеврум» и какие были обновления

Нейросеть «Шедеврум» — это проект компании «Яндекс», который позволяет пользователям генерировать изображения и видео по текстовому описанию с помощью нейросети YandexART. Сервис был представлен в 2023 году и прошел несколько этапов развития:

  • 5 апреля 2023 года — прототип приложения с обучением на 240 млн изображений.
  • 15 июня 2023 года — интеграция большой языковой модели YandexGPT, что увеличило возможности сервиса.
  • 28 августа 2023 года — возможность генерации коротких видео для активных пользователей.
  • 18 октября 2023 года — интеграция нейросети YandexArt для создания изображений и видео.
  • 4 сентября 2024 года — YandexART научилась создавать пятисекундные видео с движущимися объектами.

Возможности генерации картинок в приложении значительно улучшились после интеграции с нейросетью YandexART. Также в «Шедеврум» была интегрирована нейросеть YandexGPT. Эта модель использует большие объемы данных и сложные алгоритмы для анализа текста и создания визуального контента.

Благодаря YandexGPT «Шедеврум» может создавать изображения и видео с высокой степенью детализации и реалистичности. Модель учитывает контекст и стиль текста, чтобы создать изображение или видео, которые соответствуют описанию.

В месяц релиза — в апреле 2023 года — мы тестировали возможности самой первой версии нейросети, спустя два года повторяем промпты (текстовые запросы к нейросети) и смотрим, как изменились результаты.

Что изменилось

Сравниваем картинки, которые получаются в приложении «Шедеврума» первой и последней версий.

Докторская колбаса с крыльями в лучах света

«Шедеврум»
«Шедеврум»
Результат 2023 года VS результат 2025 года

По этому промпту заметен явный прогресс в качестве генерации. Первая версия (слева) фокусируется на абстрактной, минималистичной интерпретации запроса, создавая простой и символичный образ. Вторая версия, напротив, показывает более глубокое понимание контекста и детализацию: сцена становится реалистичной и насыщенной, с добавлением дополнительных элементов и сложного освещения. Эти изменения отражают улучшение алгоритмов нейросети, позволяющее создавать сложные композиции.

<p>Изображение, сгенерированное версией нейросети Kandinsky 3.1 по промпту &laquo;Художник рисует картину, сидя в солнечной студии&raquo;</p>
Экономика инноваций Чему научилась нейросеть Kandinsky за последние обновления

Дарт Вейдер танцует диско

«Шедеврум»
«Шедеврум»
Результат 2023 года VS результат 2025 года

На первом изображении связь с танцем и диско минимальна. Нейросеть сохраняет образ Дарта Вейдера в каноничном стиле, сдержанном и серьезном. Он стоит в статичной позе, окруженный штурмовиками, на фоне характерного футуристического интерьера. Танцевальный или диско-элемент отсутствует: движение, эмоции и атмосфера дискотеки не переданы, что указывает на ограниченное понимание креативного аспекта промпта.

Изображение справа показывает значительно более свободную интерпретацию. Хотя это все еще узнаваемый Дарт Вейдер, поза и общая композиция намекают на динамику и шоу. Поднятые руки и широкая стойка напоминают энергичное выступление, а яркие и теплые цвета в освещении создают настроение дискотеки. Вместо формального окружения появляется активная сцена, наполненная жизнью и праздничной атмосферой. Даже костюм Вейдера кажется более стилизованным, добавляя ощущение театральности и игры.

Версия 2.0 демонстрирует значительный прогресс в обработке абстрактных и творческих задач. Она не только интерпретирует танец, но и добавляет соответствующую атмосферу, превращая строгий образ Вейдера в нечто неожиданное и яркое, более точно соответствующее запросу.

Большой театр из кубиков LEGO

«Шедеврум»
«Шедеврум»
Результат 2023 года VS результат 2025 года

На иллюстрации, созданной в 2023 году, Большой театр представлен в традиционной архитектурной форме, с четкой привязкой к оригиналу. Кубики LEGO используются для передачи узнаваемого облика фасада с колоннами и скульптурной группой наверху. Цветовая палитра строго соответствует реальности, с акцентом на золотисто-желтые тона и драматическое освещение. Однако креативный подход ограничен: LEGO выступает здесь скорее как строительный материал, а атмосфера театра или зрелищности отсутствует.

На изображении этого года наблюдается гораздо более творческая интерпретация. Вместо традиционного фасада нейросеть создает сцену театра, где LEGO не просто материал, а активный инструмент для передачи деталей, текстур и богатства декора. Внутренний вид сцены с яркими занавесами и насыщенной цветовой палитрой напоминает театральное представление. Здесь чувствуется динамика и атмосфера праздника, создающая образ, более соответствующий ассоциации с театром как местом искусства.

<p>Разбираемся, как создать изображение с помощью нейросети</p>
Экономика инноваций Нейросеть рисует: 10 способов создать картинку по фото или описанию

Саяно-Шушенская ГЭС, тилт-шифт-объектив

«Шедеврум»
«Шедеврум»
Результат 2023 года VS результат 2025 года

Первой версии удалось передать масштаб и индустриальный характер ГЭС, но изображение выглядит абстрактным. Эффект тилт-шифт-объектива (с помощью него плоскость фокусировки можно сдвинуть или наклонить, детализировать и размыть нужную часть фото) здесь выражен слабо: вместо характерного размытия переднего и заднего планов сцена слегка напоминает миниатюру. Детализация строений оставляет желать лучшего, многие элементы кажутся размытыми или нечеткими.

Вторая версия ушла еще дальше от исходного запроса. Прежде всего, изменилась сама композиция: вместо массивного индустриального сооружения на передний план вышел природный ландшафт, ГЭС почти неразличима. Размытие также исчезло, хотя композиция стала реалистичнее. В итоге более новая версия нейросети не смогла точно воспроизвести Саяно-Шушенскую ГЭС и эффект тилт-шифт-объектива.

Плакат о покорении космоса в наивном стиле

«Шедеврум»
«Шедеврум»
Результат 2023 года VS результат 2025 года

Левая картинка, созданная первой версией «Шедеврума», выглядит менее детализированной, с упрощенными формами и менее выразительными элементами. Позиционирование объектов хаотично, что создает эффект наивности, но снижает общее ощущение гармонии.

В правой картинке, созданной версией «Шедеврума» 2.0, значительно больше деталей: планеты имеют текстуры, ракета выглядит технически точнее, а композиция стала более сбалансированной. Это говорит об улучшении алгоритмов обработки деталей и способности удерживать фокус на ключевых объектах.

Porsche 901, фотореализм

«Шедеврум»
«Шедеврум»
Результат 2023 года VS результат 2025 года

Хотя более ранняя модель успешно создала узнаваемый образ Porsche 901, детализация оставляет желать лучшего. Отчетливо видны артефакты генерации, особенно на кузове и колесах. Цветовая гамма выглядит несколько блеклой, а окружение автомобиля не доработано.

Нейросеть последней версии показывает значительный прогресс. «Шедеврум» стала гораздо лучше передавать реалистичность. Кузов автомобиля выглядит гладким и блестящим, детали проработаны тщательно. Окружающая среда стала более детализированной, создавая атмосферу городской улицы. Цвета стали более насыщенными и контрастными.

Фото:Freepik
Индустрия 4.0 Что такое промт, для чего он нужен и как правильно его написать

Кресло-авокадо

«Шедеврум»
«Шедеврум»
Результат 2023 года VS результат 2025 года

Первая версия демонстрирует базовые возможности нейросети в создании реалистичных объектов. Кресло-авокадо узнаваемо, но изображение страдает от недостатка детализации. Форма кресла несколько упрощена, текстура материала выглядит однородной, а цветовая гамма ограничена. Отсутствует ощущение объема и глубины.

Вторая версия показывает значительный прогресс в качестве генерации. Нейросеть демонстрирует более глубокое понимание запроса. Кресло выглядит объемным и реалистичным, текстура кожи передана с высокой точностью. Цветовая гамма стала более богатой, а освещение создает эффект глубины. Окружающая среда добавляет контекста и делает изображение более живым.

Фотореалистичный котенок играет с комочком бумажки

«Шедеврум»
«Шедеврум»
Результат 2023 года VS результат 2025 года

Хотя ранняя модель успешно создала образ котенка, играющего с бумажкой, детализация оставляет желать лучшего. Шерсть котенка выглядит несколько пластмассовой, а глаза кажутся стеклянными. Однако смысл промпта нейросеть уловила лучше — комочек бумажки выглядит подходящим для игры.

Но в целом изображение справа получилось более совершенным. Нейросеть стала гораздо лучше передавать реалистичность. Шерсть котенка она сделала пушистой и мягкой, а глаза — живыми и блестящими. Иллюстрация приближается к фотореализму, хотя спутать ее с настоящей фотографией пока невозможно.

Руки, играющие на пианино, крупным планом

«Шедеврум»
«Шедеврум»
Результат 2023 года VS результат 2025 года

В этом сравнении видно, что нейросеть во второй версии (справа) стала лучше справляться с деталями, но все еще испытывает трудности с изображением рук. На картинке слева (первая версия «Шедеврума») руки выглядят неестественно: пальцы искажены, пропорции нарушены, а клавиши пианино кажутся размытыми и неправильными.

Справа улучшилась общая четкость и реалистичность: клавиши прорисованы лучше, а композиция выглядит гармоничнее. Однако проблемы с руками остаются — пальцы все еще выглядят странно, их анатомия и положение на клавишах нереалистичны.

Читайте также:

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.

Обновлено 06.02.2025
Главная Лента Подписаться Поделиться
Закрыть