Об эксперте: Максим Еременко, вице-президент Сбербанка. Возглавляет департамент развития искусственного интеллекта и машинного обучения.
Тренд на мультимодальность
— ИИ сейчас — одна из самых обсуждаемых технологических тем, но в потоке новостей о новых решениях и их возможностях сложно выделить главное. Каков сейчас основной вектор развития ИИ?
— Вопрос, действительно, непростой, потому что еще год назад не было такого хайпа вокруг больших языковых моделей (Large Language Models, LLM). Он возник благодаря компании OpenAI, которая в конце 2022 года представила ChatGPT.
Когда весной 2023 года разработчики анонсировали новую модель GPT-4, они показали, с какой точностью нейросеть может отвечать на вопросы по разным дисциплинам.
Еще один важный момент, связанный с большой революцией в области LLM, — способность квалифицированно решать задачи. Вы можете попросить ChatGPT или российские модели — GigaChat от «Сбера», YandexGPT — рассуждать так, как это сделал бы специалист в какой-либо области, например писатель или палеонтолог.
LLM сделали рывок в области генеративного ИИ за счет использования подхода RLHF (Reinforcement Learning from Human Feedback — обучение с подкреплением на основе отзывов людей). Благодаря этому методу LLM стали выдавать ответы, абсолютно соответствующие ожиданиям человека.
— Уже просматривается траектория развития нейросетей на ближайшее время?
— Сейчас наблюдается тренд на мультимодальность — способность LLM-моделей работать с разными типами данных — текст, изображение, аудио, видео и др. Это уже движение в сторону так называемых LVM (Language Visual Models, языковых визуальных моделей), когда одна архитектура может обрабатывать несколько модальностей. Кажется, что этот тренд на мультимодальность будет определяющим на ближайшие несколько месяцев.
Созревшие технологии и миллиарды прибыли
— Как вы оцениваете эффект от применения генеративных моделей в бизнесе и какие перспективы здесь открываются?
— Недавно мы с коллегами обсуждали отчет, в котором говорится, что 40% компаний часто или иногда уже используют генеративный ИИ в своих процессах: маркетинг, обслуживание, рутинные операции и так далее.
Вся рутинная работа с большими объемами текстов меняется. То, что раньше можно было применять с большими ограничениями — например, автогенерацию ответов в почтовой переписке или суммаризацию знаний, — сейчас становится работоспособной технологией. Качество изображений, которые генерируют модели, тоже стало достаточно высоким. Они дошли до уровня зрелой промышленной технологии.
Если говорить про ИИ в целом, то для технологических компаний это основа автоматизации. ИИ либо аугментирует человека, либо автоматизирует рутинные профессии, и на их месте появляются новые. В масштабе «Сбера» это дает сотни миллиардов рублей экономического эффекта.
— Внедрение ИИ требует расходов, в том числе на кадры и инфраструктуру. Эффект от использования технологии их покрывает?
— Инвестиции в ИИ — это, прежде всего, железо и люди. Плюс датасеты, то есть качественно собранные и очищенные данные. А все остальное — скорее, сопутствующая инфраструктура, и ее все равно надо развивать.
Уверен, что инвестиции в ИИ возвращаются с хорошим показателем рентабельности. Во многих компаниях это даже более рентабельно, чем вложения в основной бизнес. Сost-to-Income Ratio (соотношение затрат и доходов) по инвестициям в ИИ существенно меньше 15%.
Продажи, рекомендации и «голубой океан»
— Какие ИИ-решения вы считаете наиболее перспективными, прежде всего с точки зрения финансовой отдачи?
— У нас основной бизнес — банкинг. Поэтому для нас важны модели риск-менеджмента и модели активных продаж, рекомендации продуктов и сервисов внутри экосистемы. И, конечно, модели, которые помогают обезопасить финансы наших клиентов, в том числе от социальной инженерии, предотвращая потери на огромные суммы.
То, что связано с автоматизацией внутренних процессов, всегда сложнее посчитать в деньгах, потому что здесь нет прямого дохода от продаж. Но на A/B-тестах видно, что это существенные эффекты за счет более качественных процессов.
Кроме того, есть так называемый голубой океан для ИИ. Понятно, что можно научить нейросеть качественно отвечать на вопросы, но еще ее можно применять для решения сложных инженерных задач. Например, в промышленном дизайне. Здесь потенциал еще не раскрыт, но в это направление смотрят все разработчики систем автопроектирования.
— Как здесь может помочь ИИ?
— С помощью генеративных моделей уже можно проектировать сложные с точки зрения инженерных параметров элементы силовых агрегатов, двигателей, зданий и сооружений. Нельзя сказать, что это сулит нам полное замещение инженерного труда. Но это позволяет — так же как, например, в генеративной фармакологии — сократить время на перебор разных вариантов в процессе проектирования.
Проверка эрудиции и супервозможности ИИ
— На фоне общего интереса к нейросетям связанные с ИИ мероприятия привлекают особое внимание. Чем конференция AI Journey в этом году будет отличаться от предыдущих и что необычного вы приготовили для участников?
— По формату мы немного увеличили мероприятие. Раньше у нас на одной площадке объединялись исследовательские команды и научные коллективы вместе с бизнесовой и государственной тематикой. Сейчас мы разделили эти повестки. Первый день будет научным, второй — бизнесовым, третий — про то, как ИИ позволяет решать задачи общества, повышать эффективность работы разных государственных сервисов.
Наша конференция выросла из хакатона, и соревнование разработчиков останется одним из важнейших элементов. Но задачи стали значительно более масштабными.
— Например?
— В этом году у нас целых пять задач для AI Journey Contest. Например, задача на создание мультимодального ИИ, о котором я говорил в начале. Подтверждением того, что мультимодальная нейросеть действительно работает и работает хорошо, могла бы стать ее проверка в импровизированной игре на эрудицию. В рамках соревнования лучшие модели должны ответить на 10 сложных и нетривиальных вопросов. Ответы на них предполагают наличие некоторой цепочки логических рассуждений, а не просто общих знаний.
Вопросы будут сочетать текстовую, визуальную и аудиоинформацию. Этот же принцип, кстати, используется в мультиагентном обучении. Оно, видимо, будет одним из главных трендов на ближайшее будущее наряду с мультимодальным ИИ.
Разработчики таких решений используют ансамбль из разных агентов с разной специализацией: медицина, классическая литература, общеобразовательная программа. Модель понимает, что примерно от нее хотят, и вызывает того или иного агента. Возникает эффект эмерджентности, когда совокупность элементов дает больше, чем все составляющие по отдельности.
— Одна из идей AI Journey — супервозможности, которыми ИИ может нас наделить. О каких возможностях речь?
— Здесь лучше рассказать на примерах. Возьмем задачу расшифровки ДНК. Чтобы загрузить молекулу ДНК в модель, нужно, чтобы она понимала контекст от миллиона токенов. Для русского языка токен — это пять-шесть символов. Но пока модели могут воспринимать достаточно ограниченный контекст.
Как только это ограничение будет снято и будут обучены соответствующие модели, исследователи получат супервозможность моделировать, каким образом регулируется работа генов в клетках всех органов и тканей нашего организма (решение этой задачи позволяет предсказывать заболевания по ДНК и дает потенциальную возможность их блокировать. — «РБК Тренды»).
Этим занимается, в частности, компания DeepMind, которая принадлежит Google. У наших научных партнеров тоже есть такая исследовательская группа.
— Какие еще супервозможности может дать ИИ?
— В индустрии дизайна сейчас многие начинают использовать ИИ как инструмент для генерации идей и образов, которыми можно вдохновиться. Идеи нейросетей могут быть очень необычными: человек сам не мог бы их сгенерировать.
И вот такая аугментация человека полезными новыми инсайтами, идеями от генеративных сеток открывает человеку супервозможности.
Помимо дизайна, есть еще много направлений, где это может быть полезно. Повышение качества жизни и потребляемых сервисов, профессиональной деятельности и образовательных процессов, скорости доступа к информации и ее достоверности. То есть большой и сложный набор инструментов. Но его можно воспринимать как полезную аугментацию человека, которая дает новые навыки и прокачивает уже существующие.
Сложные сценарии и суперпомощник для человека
— Каковы ваши главные ожидания от ИИ на обозримое будущее?
— Думаю, что в ближайшие годы развитие будет строиться вокруг трех «М» — мультимодальность, мультизадачность и мультиагентность. Это означает, что мы сможем обрабатывать все больше типов информации в рамках разных архитектур.
Машина уже умеет конвертировать речь в текст, фонограммы — в цифровую информацию и обратно, распознавать и генерировать изображения. Сейчас Google и еще несколько компаний работают над новой модальностью — цифровым обонянием. Пока это эксперимент, но движение уже есть. Типов сигналов очень много, поэтому будут развиваться новые модальности.
В мультиагентных моделях пока работает несколько сеток, максимум несколько десятков. Но, думаю, появятся архитектуры, включающие огромное количество специализаций. Если взять одни только врачебные специальности, уже наберется несколько тысяч.
Мультизадачность позволит использовать одного ИИ-помощника для решения самых разных задач. Сейчас генеративки очень хорошо справляются с текстами, задачами по программированию, написанию и оптимизации кода. Дальше — более сложные сценарии. Например, создание и настройка технических заданий.
— Такое количество модальностей и задач требует огромных ресурсов для обучения. Они есть у компаний?
— Полагаю, что одним из трендов станет обучение моделей на малом количестве данных, как это происходит с детьми. Им не нужно показывать сотни тысяч картинок. Достаточно один раз увидеть в мультике образ какого-нибудь животного, и ребенок легко узнает его в парке. Сейчас многие исследователи переключились именно на эту задачу.
— То есть скоро мы наделим ИИ всеми пятью чувствами и загрузим в него все наши знания. Получится суперзаменитель человека?
— Скорее суперпомощник. Я не верю в суперзамену. Есть много моментов, связанных с этикой использования ИИ. Должна быть либо «красная кнопка», отключающая машину, либо ограничение на наборы данных, на которых учатся модели. В любом случае я считаю, что ИИ будет работать не вместо человека, а вместе с ним.