Нейросети, 22 мар 2023, 10:26

От каракулей до фотореализма: что умеет Midjourney спустя 8 месяцев

Читать в полной версии
Фото: Midjourney
Публичная бета Midjourney вышла в июле 2022-го. В марте 2023 от генерирующей картинки нейросети добились уже фотографического качества. Экспериментируем и смотрим, как с одним запросом справляются разные версии алгоритма

Прогресс, которого достиг Midjourney менее, чем за год, впечатляет. Нейросеть прошла путь от каракулей, едва-едва напоминающих объекты из текстового запроса, до фотореалистичных изображений, которые не всегда можно отличить от настоящих фотографий.

В марте 2023 появилась пятая версия Midjourney, которая, наконец почти решила вопрос с анатомией человеческих рук. Чтобы посмотреть, что еще может Midjourney v5, РБК Тренды сравнили, как разные версии алгоритма справляются с одними и теми же запросами. Мы попросили нейросеть нарисовать: полосатых котят, ретроавтомобиль, «лес рук», женщину средних лет, молодого разработчика, кресло в форме авокадо, город будущего, детский рисунок, Землю из космоса, мышонка в стиле Дали и руки, играющие на пианино.

Коротко о Midjourney (если знаете, листайте дальше к сравнению)

Midjourney — это искусственный интеллект, разработанный независимой исследовательской лабораторией Midjourney, базирующейся в Сан-Франциско. Эта нейросеть создает изображения на основе текстовых описаний, называемых «промптами», аналогично технологиям OpenAI DALL-E и Stable Diffusion. В настоящее время инструмент находится в открытом бета-тестировании. Команду Midjourney возглавляет Дэвид Хольц выпускник факультета прикладной математики Университета Северной Каролины в Чапел-Хилл и сооснователь Leap Motion.

Midjourney доступна через бота на платформе Discord. Пользователи вводят команду /imagine и текстовый запрос, после чего бот генерирует на его основе набор из четырех изображений. Понравившуюся картинку затем можно увеличить и сохранить отдельно.

Основатель Midjourney видит художников как потенциальных клиентов, а не конкурентов, и считает, что этот инструмент можно использовать для быстрого создания прототипов художественных концепций. Однако некоторые художники критикуют использование их работ в обучающих наборах данных, считая, что это обесценивает оригинальное творчество. В январе 2023 года три художника подали иск о нарушении авторских прав против Stability AI, Midjourney и DeviantArt за использование изображений без согласия авторов для обучения AI-инструментов.

Полосатые котята

Начнем с котят, потому что это один из самых популярных образов в интернете в принципе. По некоторым оценкам, 15% мирового интернет-трафика составляют изображения кошек.

Наш запрос к Midjourney выглядел так (полосатый котенок, играющий с бумажкой):

/imagine striped kitten playing with a lump of paper

Меньше года назад Midjourney v1 выдавала результат, в котором с трудом опознать котенка можно было только, если знать, каким был запрос. Актуальная версия v5 выдает уже настоящих котят с корректной анатомией и правильно нарисованной шерстью.

Ретроавтомобиль

На этом запросе хорошо видно, как Midjourney постепенно научилась работать с реальными объектами, а не «придумывать» что-то похожее. Скажем, если вы попросите v5 нарисовать Ford F-150, он его и нарисует. А в данном случае на картинке именно Porsche 901.

Наш запрос («Порше 901» в цвете «хамелеон»):

/imagine Porsche 901 in chameleon colour

Лес рук

Интересно также, как нейросеть работает с метафорами и абстракциями. Классический «лес рук» из школьных времен с помощью Midjourney превращается в картинку из головы Тима Бертона.

Наш запрос (лес рук на закате):

/imagine forest of hands in the dawn

Женщина средних лет

Человеческая анатомия и в особенности — лица — это одна из самых сложных задач даже для художника-человека, потому что в нашем мозгу есть специальная область, отвечающая за распознавание лиц. Из-за этого любое несоответствие мы хорошо различаем. К пятой версии изображения, которые генерирует нейросеть, уже сложно отличить от фото. Правда нашу просьбу нарисовать родинку на щеке алгоритм упорно игнорировал. Кроме того, интересно, как нейросеть справляется с неточным возрастом — «средних лет». Кажется, последняя версия Midjourney склонна рисовать женщин средних лет визуально более молодыми, чем это делали ранние версии алгоритма. 

Запрос (женщина средних лет с темными волосами и родинкой на левой щеке):

/imagine mid age woman with dark hair and a mole on the left cheek

Молодой разработчик

Эта подборка изображений хорошо иллюстрирует, как нейросеть интерпретирует «молодость», а также то, насколько важно правильно размечать датасет при обучении нейросетей в принципе, чтобы результаты были корректны во всех отношениях. Здесь показательно, что молодой программист у Midjourney v5 получился в половине вариантов азиатом. Зато из результатов пропали надписи на тарабарском языке.

Запрос (молодой JS-разработчик):

/imagine young js developer

Кресло в форме авокадо

А это один из запоминающихся образов, который в свое время эксплуатировали разработчики нейросети-конкурента, демонстрируя возможности Dall-E.

Запрос (кресло-авокадо):

/imagine avocado chair

Нейросеть ruDALL-E с нуля рисует картинки по описанию на русском. Галерея
Индустрия 4.0 

Город будущего

В запросах о будущем по-прежнему важно указывать «настроение» картинки, которую вы хотите получить. Если этого не сделать, судя по всему, нейросеть будет отталкиваться от атмосферных кадров из фильмов о будущем, на которых она обучалась. Несмотря на общую тенденцию Midjourney v5 к фотореализму в данном случае получились скорее CGI-иллюстрации.

Запрос (людная улица города будущего в 2100 году, полная киборгов):

/imagine crowded futuristic city street of year 2100 full of cyborgs

Какими будут города будущего: проект Neom
Зеленая экономика 

Детский рисунок

Детские рисунки в целом удавались и предыдущим версиям нейросети, но у v5 получается красочнее и, кажется, все-таки аутентичнее.

Запрос (карандашный рисунок со львом, солнцем и пальмой на белом листе бумаги, сделанный трехлетним ребенком):

/imagine pencil drawing of a lion, sun and a palm made on a white sheet of paper by 3 years old kid

Австралия из космоса

Как и в других случаях с запросами о вполне конкретных объектах, форму которых мы в целом представляем, здесь сложность в том, чтобы выдать корректные очертания континента. В целом более или менее корректная география появляется уже в v4.

Запрос (австралийский континент из космоса ночью):

/imagine australian continent from space in the night

Мышонок в стиле Дали

Стилизации под конкретного художника при желании можно добиться указанием нужных цветов, техники и конкретных дополнительных объектов (например, длинных ног у мыши в этом случае), но без уточнения v5 все-таки ушла в сторону фотореализма.

Запрос (картина в стиле Дали с белой мышью, идущей по луже):

/imagine dali style picture of a white mouse walking through a puddle

Руки, играющие на пианино

И самое сложное — руки. Видно, что даже Midjourney v5 они по-прежнему даются не идеально, но прогресс очевиден. Теперь одну из четырех версий уже вполне можно использовать.

Запрос (руки, играющие на пианино, крупным планом):

/imagine close-up hands playing piano

Нейросети Универсальный ИИ Искусственный интеллект IT
Главное