От каракулей до фотореализма: что умеет Midjourney спустя 8 месяцев
Прогресс, которого достиг Midjourney менее, чем за год, впечатляет. Нейросеть прошла путь от каракулей, едва-едва напоминающих объекты из текстового запроса, до фотореалистичных изображений, которые не всегда можно отличить от настоящих фотографий.
В марте 2023 появилась пятая версия Midjourney, которая, наконец почти решила вопрос с анатомией человеческих рук. Чтобы посмотреть, что еще может Midjourney v5, РБК Тренды сравнили, как разные версии алгоритма справляются с одними и теми же запросами. Мы попросили нейросеть нарисовать: полосатых котят, ретроавтомобиль, «лес рук», женщину средних лет, молодого разработчика, кресло в форме авокадо, город будущего, детский рисунок, Землю из космоса, мышонка в стиле Дали и руки, играющие на пианино.
Коротко о Midjourney (если знаете, листайте дальше к сравнению)
Midjourney — это искусственный интеллект, разработанный независимой исследовательской лабораторией Midjourney, базирующейся в Сан-Франциско. Эта нейросеть создает изображения на основе текстовых описаний, называемых «промптами», аналогично технологиям OpenAI DALL-E и Stable Diffusion. В настоящее время инструмент находится в открытом бета-тестировании. Команду Midjourney возглавляет Дэвид Хольц выпускник факультета прикладной математики Университета Северной Каролины в Чапел-Хилл и сооснователь Leap Motion.
Midjourney доступна через бота на платформе Discord. Пользователи вводят команду /imagine
и текстовый запрос, после чего бот генерирует на его основе набор из четырех изображений. Понравившуюся картинку затем можно увеличить и сохранить отдельно.
Основатель Midjourney видит художников как потенциальных клиентов, а не конкурентов, и считает, что этот инструмент можно использовать для быстрого создания прототипов художественных концепций. Однако некоторые художники критикуют использование их работ в обучающих наборах данных, считая, что это обесценивает оригинальное творчество. В январе 2023 года три художника подали иск о нарушении авторских прав против Stability AI, Midjourney и DeviantArt за использование изображений без согласия авторов для обучения AI-инструментов.
Полосатые котята
Начнем с котят, потому что это один из самых популярных образов в интернете в принципе. По некоторым оценкам, 15% мирового интернет-трафика составляют изображения кошек.
Наш запрос к Midjourney выглядел так (полосатый котенок, играющий с бумажкой):
/imagine striped kitten playing with a lump of paper
Меньше года назад Midjourney v1 выдавала результат, в котором с трудом опознать котенка можно было только, если знать, каким был запрос. Актуальная версия v5 выдает уже настоящих котят с корректной анатомией и правильно нарисованной шерстью.
Ретроавтомобиль
На этом запросе хорошо видно, как Midjourney постепенно научилась работать с реальными объектами, а не «придумывать» что-то похожее. Скажем, если вы попросите v5 нарисовать Ford F-150, он его и нарисует. А в данном случае на картинке именно Porsche 901.
Наш запрос («Порше 901» в цвете «хамелеон»):
/imagine Porsche 901 in chameleon colour
Лес рук
Интересно также, как нейросеть работает с метафорами и абстракциями. Классический «лес рук» из школьных времен с помощью Midjourney превращается в картинку из головы Тима Бертона.
Наш запрос (лес рук на закате):
/imagine forest of hands in the dawn
Женщина средних лет
Человеческая анатомия и в особенности — лица — это одна из самых сложных задач даже для художника-человека, потому что в нашем мозгу есть специальная область, отвечающая за распознавание лиц. Из-за этого любое несоответствие мы хорошо различаем. К пятой версии изображения, которые генерирует нейросеть, уже сложно отличить от фото. Правда нашу просьбу нарисовать родинку на щеке алгоритм упорно игнорировал. Кроме того, интересно, как нейросеть справляется с неточным возрастом — «средних лет». Кажется, последняя версия Midjourney склонна рисовать женщин средних лет визуально более молодыми, чем это делали ранние версии алгоритма.
Запрос (женщина средних лет с темными волосами и родинкой на левой щеке):
/imagine mid age woman with dark hair and a mole on the left cheek
Молодой разработчик
Эта подборка изображений хорошо иллюстрирует, как нейросеть интерпретирует «молодость», а также то, насколько важно правильно размечать датасет при обучении нейросетей в принципе, чтобы результаты были корректны во всех отношениях. Здесь показательно, что молодой программист у Midjourney v5 получился в половине вариантов азиатом. Зато из результатов пропали надписи на тарабарском языке.
Запрос (молодой JS-разработчик):
/imagine young js developer
Кресло в форме авокадо
А это один из запоминающихся образов, который в свое время эксплуатировали разработчики нейросети-конкурента, демонстрируя возможности Dall-E.
Запрос (кресло-авокадо):
/imagine avocado chair
Город будущего
В запросах о будущем по-прежнему важно указывать «настроение» картинки, которую вы хотите получить. Если этого не сделать, судя по всему, нейросеть будет отталкиваться от атмосферных кадров из фильмов о будущем, на которых она обучалась. Несмотря на общую тенденцию Midjourney v5 к фотореализму в данном случае получились скорее CGI-иллюстрации.
Запрос (людная улица города будущего в 2100 году, полная киборгов):
/imagine crowded futuristic city street of year 2100 full of cyborgs
Детский рисунок
Детские рисунки в целом удавались и предыдущим версиям нейросети, но у v5 получается красочнее и, кажется, все-таки аутентичнее.
Запрос (карандашный рисунок со львом, солнцем и пальмой на белом листе бумаги, сделанный трехлетним ребенком):
/imagine pencil drawing of a lion, sun and a palm made on a white sheet of paper by 3 years old kid
Австралия из космоса
Как и в других случаях с запросами о вполне конкретных объектах, форму которых мы в целом представляем, здесь сложность в том, чтобы выдать корректные очертания континента. В целом более или менее корректная география появляется уже в v4.
Запрос (австралийский континент из космоса ночью):
/imagine australian continent from space in the night
Мышонок в стиле Дали
Стилизации под конкретного художника при желании можно добиться указанием нужных цветов, техники и конкретных дополнительных объектов (например, длинных ног у мыши в этом случае), но без уточнения v5 все-таки ушла в сторону фотореализма.
Запрос (картина в стиле Дали с белой мышью, идущей по луже):
/imagine dali style picture of a white mouse walking through a puddle
Руки, играющие на пианино
И самое сложное — руки. Видно, что даже Midjourney v5 они по-прежнему даются не идеально, но прогресс очевиден. Теперь одну из четырех версий уже вполне можно использовать.
Запрос (руки, играющие на пианино, крупным планом):
/imagine close-up hands playing piano