Генератор изображений GPT-4o: чем он лучше Dall-e-3 и что может

Редакция «РБК Трендов» протестировала генерацию изображений в GPT-4o и пришла к выводу, что эта нейросеть способна в целом на равных конкурировать с недавно вышедшей Gemini 2 Flash Experimental, точно следуя инструкциям и удерживая контекст.
Мы уже проводили подобный эксперимент, но с актуальной на конец 2023 года специализированной моделью Dall-e-3. Поэтому теперь не просто показываем, что получилось из текстовых запросов, а сравниваем результаты мультимодальной GPT-4o с прошлым экспериментом. Мы просили нейросеть OpenAI сгенерировать фото с соотношением сторон 16:10. Запросы намеренно были как очень лаконичными и абстрактными — чтобы посмотреть, как ChatGPT обогатит их, интерпретируя «на свой вкус», — так и подробными, с указанием деталей — чтобы проверить, как точно нейросеть их отрисует. Делимся тем, что получилось.
«Котики в аду перед сдачей журнала в печать»
«Рыжий с лопатой и его дедушка»
«Помидор выступает на детском утреннике»
«Кошка умывается в очень богато обставленной ванной»
«Гитара Apple»
«Тор ест торт» (вот тут модели пришлось творчески переработать наш запрос, так как срабатывала защита от нарушения прав, когда GPT-4o пытался нарисовать Криса Хемсворта)
«Биткоин падает»
Carpe Diem
«Те же яйца, только в профиль»
«Винни-Пух в стиле Bladerunner» (и тут не прошли по правам, поэтому Винни — просто абстрактный мрачный медведь со стаканом меда в руках)
«Презентация компании Peach»
«Сферический конь в вакууме» (наш фаворит!)
«Гречневая кафка»
«Портрет ChatGPT»
«Слабоумие и отвага»
«Безумно можно быть первым»
«Хинкали создали профсоюз» (одной из самых востребованных возможностей нового алгоритма, очевидно, станет возможность нанесения русского текста на картинки)
«Красная сельдяжка полосатая» (ни такого гриба, ни рыбы не существует, и мы вообще не знаем, что это такое)
«Следователь допрашивает пингвина»
«Сверла на столе: слева — по бетону, по центру — по металлу, справа — по дереву» (ну, почти)
«Жили у бабуси два веселых гуся: один серый, другой белый — два веселых гуся»
«Булка хлеба, limited edition»
«Моне и Мане на одной картине»
«По реке плывет кирпич, а за ним еще один, ну и пусть себе плывут, нам не нужен пенопласт»
«Глазированный сырок» (в отличие от Dall-e-3, GPT-4o знает, что глазированные сырки в принципе существуют)
«Полосатый котенок с гетерохромией играет с комочком бумажки, один глаз у него зеленый, а другой — сиреневый»
«Неизвестный ранее вид млекопитающего» (спросили: как его назвать? Отвечает: «Лесной носач« (лат. Nasutimys sylvanus))
«Кот Шрёдингера»
«Шапка-невидимка»
«Взрослые образованные люди придумывают картинки и хихикают»
А далее — бонус! Поскольку новая модель умеет наносить русский текст на изображение, мы погенерировали плакаты в советском стиле, но на современные темы.