Максим Еременко — о том, как создаются креативные нейросети

Максим Еременко
Максим Еременко (Фото: СБЕР)
Вице-президент Сбербанка Максим Еременко в интервью РБК Трендам рассказал о креативном искусственном интеллекте, нейросети ruDALL-E и о том, заменят ли нас роботы

Все уже привыкли к разговорам про искусственный интеллект, но тема креативного ИИ стала подниматься только недавно. На какой стадии развития сейчас находится это направление?

— Пока Creative AI в самом начале длинного пути. Например, электронной музыке много лет, но первые эксперименты, где искусственный интеллект не занимается синтезом, а именно пытается выстроить очередность фонограмм, звуков и нот так, чтобы это понравилось человеку, начались недавно. Тогда технологии просто были не готовы, сейчас генерировать контент уже можно, но пока без участия человека не обойтись. Именно коллаборация искусственного и естественного интеллекта позволяет получать самые интересные результаты.

Следующий уровень развития ИИ — решение мультимодальных задач. Например, на конференции AI Journey 2021 одним из заданий соревнования для школьников было создание нейросказки. Они выстраивали последовательность повествования, озвучивали сказку и подбирали соответствующие визуальные образы. Если раньше у нейросетей была жесткая специализация, то теперь одна и та же архитектура может решать несколько задач с дообучением в процессе.

Снова приведу пример из области музыки. Я общался со многими специалистами, и все говорили, что больше всего времени при создании треков уходит на выбор битов. Если собрать датасет с вариативными битами и отранжировать их по принципу совместимости с конкретными музыкантами, то ИИ сможет давать очень ценные подсказки, которые сэкономят массу ресурсов, которые обычно тратятся на рутинную работу, и у музыкантов будет больше времени для творчества, мы видим здесь большой потенциал применения технологий ИИ.

Тем не менее, нужно понимать, что хоть контента сейчас и создается гораздо больше, чем 50 лет назад, все равно этот процесс сильно зависит от людей. Искусственный интеллект не решит всю задачу целиком, особенно если над проектом работают несколько специалистов разного профиля. Но доля работы, которую можно отдать нейросетям, чтобы высвобождать время, неуклонно растет.

— Разработка решений на основе искусственного интеллекта требует серьезных вложений, а отдача далеко не мгновенная. Расскажите, как «Сбер» планирует на этом зарабатывать.

— Если отвлечься от Creative AI, то мы не просто видим потенциал в теме искусственного интеллекта, а вовсю «снимаем сливки» с технологий, которые уже внедрили в наши процессы и продукты. В прошлом году за счет автоматизации с помощью искусственного интеллекта и машинного обучения «Сбер» получил доход более чем в 100 млрд руб. Причем здесь мы учитывали только новые проекты.

Финансовые и нефинансовые эффекты от использования ИИ растут, увеличивается их доля в общей прибыли. Но ситуация такова, что некоторые вещи в принципе невозможно сделать без искусственного интеллекта. Он перестает быть «хайпом» и становится частью инноваций или даже их основой. Технология не просто приносит доход, а открывает возможность разработки новых продуктов и сервисов.

— Какие события в мире Creative AI позволили вывести всю индустрию на новый уровень развития?

— Это появление двух генеративных трансформеров, о которых мы много говорили на конференции AI Journey 2021. Первый — библиотека GPT-3 от OpenAI, крупнейший из публично доступных генеративных трансформеров, создающий осмысленные последовательности слов, то есть, генерирующий тексты.

Второй — DALL-E, трансформер для генерации картинок по текстовым описаниям. Специалисты «Сбера» полностью переобучили открытую модель для работы на русском языке, и так появился наш ruDALL-E. Многие наверняка уже успели опробовать его в действии. На мой взгляд, получается очень интересный контент, который на 80–90% действительно соответствует запросу.

Часто это что-то сюрреалистическое и абстрактное, с элементами живописи, но это лишь первые шаги, которые открывают новые возможности. Если вернуться к текстовым транформерам, то у нас есть пилотный проект по генерации описаний для карточек товаров. Его результаты успешно проходят A/B тесты: люди, которым мы показывали тексты, сгенерированные нейросетью, не могут отличить их от описаний, которые создавали реальные копирайтеры.

— Нейросеть DALL-E от OpenAI обучали на 400 миллионах пар «картинка + текст». По сути, это если не вся, то большая часть информации из открытых источников в Интернете. Нет ли проблемы в том, что сейчас данных для создания коммерчески применимого творческого ИИ явно недостаточно?

— Конечно, проблема ограниченности датасетов существует, но ее можно частично решить с помощью аугментации. Это когда на основе исходного датасета генерируются новые данные, а затем добавляются к первоначальным. В результате мы получаем более широкую вариативность. Таким подходом, например, пользуются разработчики решений для автоматического пилотирования транспортных средств, если им позволяют мощности.

Более актуальна другая проблема: где взять столько мощностей? Мы используем как интенсивный, так и экстенсивный подход к увеличению мощности, но вопрос еще и в том, сколько картинок мы готовы сгенерировать по одному запросу. Если выдавать не 12-16 картинок, а 512, как делает оригинальная DALL-E (там есть монетизация), то это будет стоить кратно дороже: нужно оплачивать серверы, параллельные вычисления. От этого зависит не только пользовательский опыт, но и качество, точность результата. Не думаю, что кто-то еще в мире готов выложить в открытый доступ такую «игрушку» и тратить на ее работу несколько десятков, а то и сотен миллионов долларов в неделю.

Но технологии не стоят на месте: со временем вычислительная мощность становится дешевле, подход к дистилляции моделей становится более умным. Опыт Prisma показал нам, что иногда вычисления можно полностью перенести на конечное устройство — именно это в свое время было главным ноу-хау проекта. С переходом на каждое новое поколение связи будет расти и количество данных, потому что значительно вырастет скорость их передачи и выгрузки.

— Многие помнят историю с «Портретом Эдмонда де Белами», который создала команда технологического арт-проекта Obvious. Картина ушла с аукциона более чем за $400 тыс., а сгенерировавшую ее нейросеть создали на основе открытого кода, разработчики которого не заработали ничего. Все-таки кого считать автором контента, который сгенерировал ИИ? Ведь есть тот, кто вводит запрос, программисты, их менеджеры, люди, создававшие произведения, из которых составлен обучающий датасет…

— Этот вопрос совершенно точно требует регулирования. Именно поэтому мы активно участвовали в разработке национального кодекса этики в сфере искусственного интеллекта, который был подписан недавно, а в конце прошлого года утвердили принципы этики ИИ «Сбера». Оба документа дают разумные рекомендации о том, как надо и не надо себя вести при разработке и использовании сервисов, основанных на моделях машинного и глубокого обучения.

— Ставится ли перед ИИ задача не дополнять человека, а именно «творить»?

— Я бы дал искусственному интеллекту возможность творить с двумя условиями. Во-первых, я хочу убедиться, что результат действительно классный и нравится мне и другим. Во-вторых, я должен знать, что всегда могу с ним договориться: «ИИ, ты делаешь это, а вот тут ты профан, так что это буду делать я». Потому что уже сейчас по некоторым параметрам искусственный интеллект превосходит когнитивные способности человека. У Тьюринга (английский математик и криптограф, оказавший существенное влияние на развитие информатики, создатель теста Тьюринга. — РБК Тренды) не было сомнений в том, что машину можно в любой момент выдернуть из розетки. Но после того, как машина переиграла человека в го впору задаться философским вопросом «позволит ли она это сделать?» вместе со Стюартом Расселом (один из главных мировых экспертов в области ИИ. — РБК Тренды).

Я считаю, что будет какое-то сосуществование людей и машин. Сейчас ИИ существует в виде точек принятия решений, у него нет физического воплощения. Когда-нибудь, возможно, среди нас будут антропоморфные роботы, способные имитировать мимику, эмоции, мелкую моторику — такие разработки тоже ведутся. Однако интуицию, эмоции можно имитировать, но их нельзя заменить.

— Искусственный интеллект в роли художника мы уже видели. Увидим ли мы его когда-нибудь в роли программиста?

— На конференции AI Journey 2021 мы награждали команду, которая создала решение для конвертации кода на Python в код на Java, и это не единственный проект такого рода. Пока все сводится к code-completion (интеллектуальное завершение кода. — РБК Тренды) и code-translation (перевод с одного языка программирования на другой — РБК Тренды), есть low-code (написание кода в визуальном интерфейсе. — РБК Тренды) и drag&drop (программирование с помощью перетаскивания объектов. — РБК Тренды). Дальше будет примерно то, что сейчас происходит с Visual Question Answering и DALL-E — программа будет создаваться по описанию в удобном пользовательском интерфейсе.

Дефицит программистов будет компенсирован тем, что в ряде случаев они станут не нужны, потому что где-то написание кода можно автоматизировать. А там, где они останутся нужны, просто появятся новые требования к квалификации, знаниям и умениям. Ведь идет не тотальная автоматизация рабочей силы, а рескиллинг. Одни навыки на рынке труда перестают быть актуальными, но становятся востребованы другие.

Обновлено 20.02.2023
Главная Лента Подписаться Поделиться
Закрыть