Подписка на РБК

Инвестиции

Мероприятия

Недвижимость

РБК Компании

Телеканал

РБК Вино

Школа управления РБК

РБК Образование

РБК Курсы

Визионеры

Национальные проекты

РБК Бизнес-среда

Дискуссионный клуб

Исследования

Кредитные рейтинги

Франшизы

Спецпроекты СПб

Конференции СПб

Спецпроекты

Проверка контрагентов

Политика

Экономика

Технологии и медиа

Рынок наличной валюты

Нейросети, 22 мар 2023, 10:26

От каракулей до фотореализма: что умеет Midjourney спустя 8 месяцев

Читать в полной версии

Фото: Midjourney

Публичная бета Midjourney вышла в июле 2022-го. В марте 2023 от генерирующей картинки нейросети добились уже фотографического качества. Экспериментируем и смотрим, как с одним запросом справляются разные версии алгоритма

Прогресс, которого достиг Midjourney менее, чем за год, впечатляет. Нейросеть прошла путь от каракулей, едва-едва напоминающих объекты из текстового запроса, до фотореалистичных изображений, которые не всегда можно отличить от настоящих фотографий.

В марте 2023 появилась пятая версия Midjourney, которая, наконец почти решила вопрос с анатомией человеческих рук. Чтобы посмотреть, что еще может Midjourney v5, РБК Тренды сравнили, как разные версии алгоритма справляются с одними и теми же запросами. Мы попросили нейросеть нарисовать: полосатых котят, ретроавтомобиль, «лес рук», женщину средних лет, молодого разработчика, кресло в форме авокадо, город будущего, детский рисунок, Землю из космоса, мышонка в стиле Дали и руки, играющие на пианино.

Коротко о Midjourney (если знаете, листайте дальше к сравнению)

Midjourney — это искусственный интеллект, разработанный независимой исследовательской лабораторией Midjourney, базирующейся в Сан-Франциско. Эта нейросеть создает изображения на основе текстовых описаний, называемых «промптами», аналогично технологиям OpenAI DALL-E и Stable Diffusion. В настоящее время инструмент находится в открытом бета-тестировании. Команду Midjourney возглавляет Дэвид Хольц выпускник факультета прикладной математики Университета Северной Каролины в Чапел-Хилл и сооснователь Leap Motion.

Midjourney доступна через бота на платформе Discord. Пользователи вводят команду /imagine и текстовый запрос, после чего бот генерирует на его основе набор из четырех изображений. Понравившуюся картинку затем можно увеличить и сохранить отдельно.

Основатель Midjourney видит художников как потенциальных клиентов, а не конкурентов, и считает, что этот инструмент можно использовать для быстрого создания прототипов художественных концепций. Однако некоторые художники критикуют использование их работ в обучающих наборах данных, считая, что это обесценивает оригинальное творчество. В январе 2023 года три художника подали иск о нарушении авторских прав против Stability AI, Midjourney и DeviantArt за использование изображений без согласия авторов для обучения AI-инструментов.

Полосатые котята

Начнем с котят, потому что это один из самых популярных образов в интернете в принципе. По некоторым оценкам, 15% мирового интернет-трафика составляют изображения кошек.

Наш запрос к Midjourney выглядел так (полосатый котенок, играющий с бумажкой):

/imagine striped kitten playing with a lump of paper

Меньше года назад Midjourney v1 выдавала результат, в котором с трудом опознать котенка можно было только, если знать, каким был запрос. Актуальная версия v5 выдает уже настоящих котят с корректной анатомией и правильно нарисованной шерстью.

Фото: Midjourney v1

Фото: Midjourney v2

Фото: Midjourney v3

Фото: Midjourney v4

Фото: Midjourney v5

Ретроавтомобиль

На этом запросе хорошо видно, как Midjourney постепенно научилась работать с реальными объектами, а не «придумывать» что-то похожее. Скажем, если вы попросите v5 нарисовать Ford F-150, он его и нарисует. А в данном случае на картинке именно Porsche 901.

Наш запрос («Порше 901» в цвете «хамелеон»):

/imagine Porsche 901 in chameleon colour

Фото: Midjourney v1

Фото: Midjourney v2

Фото: Midjourney v3

Фото: Midjourney v4

Фото: Midjourney v5

Лес рук

Интересно также, как нейросеть работает с метафорами и абстракциями. Классический «лес рук» из школьных времен с помощью Midjourney превращается в картинку из головы Тима Бертона.

Наш запрос (лес рук на закате):

/imagine forest of hands in the dawn

Фото: Midjourney v1

Фото: Midjourney v2

Фото: Midjourney v3

Фото: Midjourney v4

Фото: Midjourney v5

Женщина средних лет

Человеческая анатомия и в особенности — лица — это одна из самых сложных задач даже для художника-человека, потому что в нашем мозгу есть специальная область, отвечающая за распознавание лиц. Из-за этого любое несоответствие мы хорошо различаем. К пятой версии изображения, которые генерирует нейросеть, уже сложно отличить от фото. Правда нашу просьбу нарисовать родинку на щеке алгоритм упорно игнорировал. Кроме того, интересно, как нейросеть справляется с неточным возрастом — «средних лет». Кажется, последняя версия Midjourney склонна рисовать женщин средних лет визуально более молодыми, чем это делали ранние версии алгоритма.

Запрос (женщина средних лет с темными волосами и родинкой на левой щеке):

/imagine mid age woman with dark hair and a mole on the left cheek

Фото: Midjourney v1

Фото: Midjourney v2

Фото: Midjourney v3

Фото: Midjourney v4

Фото: Midjourney v5

Молодой разработчик

Эта подборка изображений хорошо иллюстрирует, как нейросеть интерпретирует «молодость», а также то, насколько важно правильно размечать датасет при обучении нейросетей в принципе, чтобы результаты были корректны во всех отношениях. Здесь показательно, что молодой программист у Midjourney v5 получился в половине вариантов азиатом. Зато из результатов пропали надписи на тарабарском языке.

Запрос (молодой JS-разработчик):

/imagine young js developer

Фото: Midjourney v1

Фото: Midjourney v2

Фото: Midjourney v3

Фото: Midjourney v4

Фото: Midjourney v5

Кресло в форме авокадо

А это один из запоминающихся образов, который в свое время эксплуатировали разработчики нейросети-конкурента, демонстрируя возможности Dall-E.

Запрос (кресло-авокадо):

/imagine avocado chair

Фото: Midjourney v1

Фото: Midjourney v2

Фото: Midjourney v3

Фото: Midjourney v4

Фото: Midjourney v5

Нейросеть ruDALL-E с нуля рисует картинки по описанию на русском. Галерея

Индустрия 4.0

Город будущего

В запросах о будущем по-прежнему важно указывать «настроение» картинки, которую вы хотите получить. Если этого не сделать, судя по всему, нейросеть будет отталкиваться от атмосферных кадров из фильмов о будущем, на которых она обучалась. Несмотря на общую тенденцию Midjourney v5 к фотореализму в данном случае получились скорее CGI-иллюстрации.

Запрос (людная улица города будущего в 2100 году, полная киборгов):

/imagine crowded futuristic city street of year 2100 full of cyborgs

Фото: Midjourney v1

Фото: Midjourney v2

Фото: Midjourney v3

Фото: Midjourney v4

Фото: Midjourney v5

Какими будут города будущего: проект Neom

Зеленая экономика

Детский рисунок

Детские рисунки в целом удавались и предыдущим версиям нейросети, но у v5 получается красочнее и, кажется, все-таки аутентичнее.

Запрос (карандашный рисунок со львом, солнцем и пальмой на белом листе бумаги, сделанный трехлетним ребенком):

/imagine pencil drawing of a lion, sun and a palm made on a white sheet of paper by 3 years old kid

Фото: Midjourney v1

Фото: Midjourney v2

Фото: Midjourney v3

Фото: Midjourney v4

Фото: Midjourney v5

Австралия из космоса

Как и в других случаях с запросами о вполне конкретных объектах, форму которых мы в целом представляем, здесь сложность в том, чтобы выдать корректные очертания континента. В целом более или менее корректная география появляется уже в v4.

Запрос (австралийский континент из космоса ночью):

/imagine australian continent from space in the night

Фото: Midjourney v1

Фото: Midjourney v2

Фото: Midjourney v3

Фото: Midjourney v4

Фото: Midjourney v5

Мышонок в стиле Дали

Стилизации под конкретного художника при желании можно добиться указанием нужных цветов, техники и конкретных дополнительных объектов (например, длинных ног у мыши в этом случае), но без уточнения v5 все-таки ушла в сторону фотореализма.

Запрос (картина в стиле Дали с белой мышью, идущей по луже):

/imagine dali style picture of a white mouse walking through a puddle

Фото: Midjourney v1

Фото: Midjourney v2

Фото: Midjourney v3

Фото: Midjourney v4

Фото: Midjourney v5

Руки, играющие на пианино

И самое сложное — руки. Видно, что даже Midjourney v5 они по-прежнему даются не идеально, но прогресс очевиден. Теперь одну из четырех версий уже вполне можно использовать.

Запрос (руки, играющие на пианино, крупным планом):

/imagine close-up hands playing piano


    
        
        
                                
                                
                                                                                                                        Фото: Midjourney v1
                                                                                                            
                            
                        

                                
                                
                                                                                                                        Фото: Midjourney v2
                                                                                                            
                            
                        

                                
                                
                                                                                                                        Фото: Midjourney v3
                                                                                                            
                            
                        

                                
                                
                                                                                                                        Фото: Midjourney v4
                                                                                                            
                            
                        

                                
                                
                                                                                                                        Фото: Midjourney v5

Автор

Иван Звягин

Нейросети Универсальный ИИ Искусственный интеллект IT

Главное

Умер народный артист России Юрий Смирнов Общество

Власти США выплатили почти $3 млн жертвам «гаванского синдрома» Политика

Польша начала переговоры о переходе под «ядерный зонтик» Франции Политика

На Москву обрушился ливень. Фото и видео Общество

Минтруд рекомендовал для кадров 50+ «цифровой час» и спецграфик Подписка на РБК

NYT раскрыла личность фактического «наместника» Венесуэлы Политика

Bloomberg узнал об «инструменте» ЕС для борьбы с зависимостью от Китая Политика

Финтех для сверхбогатых: как Atlas нашел новую модель роста Подписка на РБК

Минус $4 трлн. Кого конфликт с Ираном лишит работы и части доходов Подписка на РБК

Дворники из КНДР отказались ехать в Оренбург из-за низких зарплат Общество

Страны Балтии объявили демарш МИД России из-за заявлений о небе для ВСУ Политика

Российская теннисистка впервые за 10 лет выиграла юниорский Уимблдон Спорт

Какие риски возникнут при переходе новых машин на топливо Евро-3 Подписка на РБК

Чем заняться дома: «Трудно быть богом», The Rolling Stones и модная Азия Впечатления

Ребенок ищет первую работу. Какие две ошибки совершают родители Подписка на РБК

Три ситуации, о которых не принято говорить в офисе Подписка на РБК

«Луч смерти» и внеземные цивилизации. Где факты и где мифы о Николе Тесле Общество