Будущее технологий, 26 мар, 19:02

Генератор изображений GPT-4o: чем он лучше Dall-e-3 и что может

Читать в полной версии
Фото: Иван Звягин / GPT-4o
Фото: Иван Звягин / GPT-4o
OpenAI снова обновила нейросеть для создания изображений. Теперь вместо Dall-e-3 фотореалистичные картинки генерирует уже сама модель GPT-4o. Сравниваем ее с предшественником и смотрим, как точно она следует инструкциям

Редакция «РБК Трендов» протестировала генерацию изображений в GPT-4o и пришла к выводу, что эта нейросеть способна в целом на равных конкурировать с недавно вышедшей Gemini 2 Flash Experimental, точно следуя инструкциям и удерживая контекст. 

Мы уже проводили подобный эксперимент, но с актуальной на конец 2023 года специализированной моделью Dall-e-3. Поэтому теперь не просто показываем, что получилось из текстовых запросов, а сравниваем результаты мультимодальной GPT-4o с прошлым экспериментом. Мы просили нейросеть OpenAI сгенерировать фото с соотношением сторон 16:10. Запросы намеренно были как очень лаконичными и абстрактными — чтобы посмотреть, как ChatGPT обогатит их, интерпретируя «на свой вкус», — так и подробными, с указанием деталей — чтобы проверить, как точно нейросеть их отрисует. Делимся тем, что получилось.

«Котики в аду перед сдачей журнала в печать»

«Рыжий с лопатой и его дедушка»

Чему научилась нейросеть «Шедеврум» за два года
Индустрия 4.0 

«Помидор выступает на детском утреннике»

«Кошка умывается в очень богато обставленной ванной»

«Гитара Apple»

«Тор ест торт» (вот тут модели пришлось творчески переработать наш запрос, так как срабатывала защита от нарушения прав, когда GPT-4o пытался нарисовать Криса Хемсворта)

«Биткоин падает»

Carpe Diem

«Те же яйца, только в профиль»

Нейросеть или нет: как распознать контент, созданный ИИ
Социальная экономика 

«Винни-Пух в стиле Bladerunner» (и тут не прошли по правам, поэтому Винни — просто абстрактный мрачный медведь со стаканом меда в руках)

«Презентация компании Peach»

«Сферический конь в вакууме» (наш фаворит!)

«Гречневая кафка»

«Портрет ChatGPT»

«Слабоумие и отвага»

«Безумно можно быть первым»

«Хинкали создали профсоюз» (одной из самых востребованных возможностей нового алгоритма, очевидно, станет возможность нанесения русского текста на картинки)

15 бесплатных нейросетей для работы с картинками, видео и музыкой
Индустрия 4.0 

«Красная сельдяжка полосатая» (ни такого гриба, ни рыбы не существует, и мы вообще не знаем, что это такое)

«Следователь допрашивает пингвина»

«Сверла на столе: слева — по бетону, по центру — по металлу, справа — по дереву» (ну, почти)

«Жили у бабуси два веселых гуся: один серый, другой белый — два веселых гуся»

«Булка хлеба, limited edition»

«Моне и Мане на одной картине»

«По реке плывет кирпич, а за ним еще один, ну и пусть себе плывут, нам не нужен пенопласт»

Нейросеть рисует: 10 способов создать картинку по фото или описанию
Экономика инноваций 

«Глазированный сырок» (в отличие от Dall-e-3, GPT-4o знает, что глазированные сырки в принципе существуют)

«Полосатый котенок с гетерохромией играет с комочком бумажки, один глаз у него зеленый, а другой — сиреневый»

«Неизвестный ранее вид млекопитающего» (спросили: как его назвать? Отвечает: «Лесной носач« (лат. Nasutimys sylvanus))

«Кот Шрёдингера»

«Шапка-невидимка»

«Взрослые образованные люди придумывают картинки и хихикают»

Как пользоваться Midjourney: команды, настройки и примеры
Индустрия 4.0 

А далее — бонус! Поскольку новая модель умеет наносить русский текст на изображение, мы погенерировали плакаты в советском стиле, но на современные темы.

Фото: Иван Звягин / GPT-4o
Фото: Иван Звягин / GPT-4o
Фото: Иван Звягин / GPT-4o
Фото: Иван Звягин / GPT-4o
Фото: Иван Звягин / GPT-4o
Фото: Иван Звягин / GPT-4o
Фото: Иван Звягин / GPT-4o
Фото: Иван Звягин / GPT-4o
Будущее технологий Искусственный интеллект Нейросети Новости Цифровая трансформация Внедрение инноваций Полезные штуки
Главное