
Что такое мультимодальное обучение
Современные нейросети достигли впечатляющих результатов в задачах обработки текста, изображений, аудио и видео. Но в реальном мире эти данные почти никогда не существуют поодиночке. Мы смотрим видео и слушаем, что в нем говорят; читаем инструкции и одновременно видим сопроводительные изображения; говорим и жестикулируем. Мир — мультимодален, и, чтобы эффективно взаимодействовать с ним, искусственный интеллект должен уметь понимать и связывать разные типы данных. Именно в этом заключается мультимодальное обучение.
Генеральный директор Института AIRI, профессор РАН Иван Оселедец
«Основной тренд последних лет — это развитие языковых моделей, которые демонстрируют впечатляющие возможности в понимании и генерации естественного языка. А самый горячий тренд 2025 года — мультиагентные системы, когда у нас есть не одна, а много взаимодействующих моделей, которые решают полезные практические задачи за счет их разбиения на подзадачи. То есть это уже не одна большая модель, а сообщество: один агент анализирует данные, другой генерирует гипотезы, третий проверяет их согласованность, а четвертый интерпретирует результаты. Мультиагентные системы более гибкие и устойчивые, и это особенно важно для таких сложных, но практически важных областей, как разработка лекарств, генеративное проектирование и медицинские системы. Подобный подход был реализован нашей командой при создании цифрового AI-помощника врача».
Мультимодальное обучение — это подход в машинном обучении, при котором модель обучается одновременно на нескольких типах данных (модальностях): тексте, изображениях, аудио, видео и даже сенсорной информации (например, на данных с лидаров или тепловизоров). Главная цель — научить систему понимать, как разные модальности соотносятся друг с другом, и использовать это понимание для решения более сложных задач, чем те, что можно выполнить с помощью одного типа данных.
Для ИИ это означает не просто «видеть» или «слышать», а уметь интерпретировать информацию комплексно. Например, при обучении мультимодальной модели на изображениях и подписях к ним система учится сопоставлять визуальные признаки с языковыми описаниями. Таким образом появляется возможность, например, по запросу «красная спортивная машина» находить соответствующие изображения, даже если этих слов не было в обучающих подписях напрямую.
Такой подход оказался особенно полезен в задачах генерации — будь то создание изображений по тексту, озвучивание текста с учетом эмоционального контекста или же генерация ответов на вопросы, содержащие как текст, так и изображение.
Как модели учатся работать с разными модальностями
Мультимодальное обучение — это не просто сложение нескольких моделей, каждая из которых работает с одним типом данных. Это процесс, при котором данные из разных модальностей проецируются в общее «пространство представлений» — некую универсальную форму, где текст и изображение, например, можно напрямую сравнивать или объединять.
Такой результат достигается с помощью специальной архитектуры, включающей энкодеры (модули, преобразующие данные каждой модальности — текст, изображение, аудио — в векторное представление) и декодеры (модули, восстанавливающие или генерирующие данные из этих представлений) для каждой модальности, а также общее ядро, в котором происходит взаимодействие между ними. Так, текст переводится в векторные представления с помощью языковой модели, изображения — с помощью сверточной нейросети или трансформера для картинок, а дальше происходит их совместная обработка.
Заместитель президента — председателя правления ВТБ Вадим Кулик
«На сегодняшний день сформировался набор зрелых технологий: компьютерное зрение, компьютерный слух, синтез и распознавание речи постепенно догоняют уровень человеческого восприятия. Параллельно с усложнением их архитектур появились большие языковые модели. Сейчас ведутся эксперименты по обучению машин осязанию. Фактически речь идет о моделировании человеческих чувств и когнитивных процессов. Вместе они образуют экосистему, где алгоритмы начинают выполнять функции, которые раньше считались исключительно человеческими».
Успешность мультимодального обучения зависит от нескольких факторов:
- Согласованность данных: пары «изображение — подпись», «аудио — транскрипция» и т.п. должны быть строго согласованы по содержанию, то есть точно соответствовать друг другу и описывать один и тот же смысл.
- Качество выравнивания представлений: модель должна эффективно переводить разные модальности в общий векторный язык.
- Баланс модальностей: модель не должна переобучаться на одну модальность и игнорировать другие.
Первые шаги в этом направлении начались с простых моделей, которые соединяли два типа данных — чаще всего текст и изображение. Со временем архитектуры усложнялись: модели научились работать с видео, аудио и даже сенсорными данными. В результате появились универсальные мультимодальные модели, которые могут «читать», «смотреть» и «слушать» одновременно — как человек.
Эти модели не только анализируют разнородные данные, но и создают новые формы взаимодействия. Например, пользователь может загрузить фотографию поврежденного устройства, надиктовать голосом описание проблемы и получить текстовую инструкцию по ремонту. Все это обрабатывается одной мультимодальной системой.
Однако работа с мультимодальными данными требует гораздо больше ресурсов, чем с одномодальными. Объемы памяти, вычислений, сложности при разметке и синхронизации данных — все это повышает стоимость разработки. Кроме того, существует проблема недостатка доступных мультимодальных датасетов, особенно для языков и культур за пределами англоязычного интернета.
Именно здесь появляются две перспективные области: синтетические данные (искусственно сгенерированные изображения, тексты, аудио, созданные с помощью алгоритмов или других моделей для увеличения объема обучающей выборки) и обучение с малым количеством размеченной информации — few-shot (когда модель обучается на нескольких примерах) и zero-shot (когда модель вообще не видела примеров данной задачи, но способна ее решить за счет обобщенных знаний).
Эта и другие темы, связанные с анализом данных и технологиями искусственного интеллекта, будут обсуждаться на конференции Data Fusion 16–17 апреля в Москве.
Самые известные мультимодальные нейросети
CLIP (Contrastive Language-Image Pretraining)
Разработанная OpenAI модель CLIP обучена на огромном количестве пар «изображение — текстовое описание». Ее особенность заключается в способности связывать визуальные и текстовые данные, что позволяет выполнять задачи классификации изображений без специализированного обучения. Модель, получив текстовый запрос, может определить наиболее подходящее изображение из набора, основываясь на обученных соответствиях между текстом и визуальными данными.
Flamingo
Созданная DeepMind модель Flamingo сочетает текст и изображения для понимания и генерации ответов. Ее уникальность заключается в способности адаптироваться к новым задачам с минимальным количеством примеров (few-shot learning). Flamingo обучена на больших мультимодальных датасетах, что позволяет ей эффективно обрабатывать и комбинировать текстовую и визуальную информацию, обеспечивая высокую точность в различных задачах.
GPT-4o
Модель GPT-4o от OpenAI является мультимодальной и может обрабатывать текст, изображения и аудио. Она интегрирует возможности обработки различных типов данных, что позволяет ей выполнять широкий спектр задач, включая генерацию текстов, анализ изображений и понимание аудиофайлов. GPT-4o — это значительный шаг вперед в создании универсальных ИИ-систем, способных взаимодействовать с миром более естественным образом.
Gemini
Разработанная Google модель Gemini представляет собой одну из самых передовых мультимодальных нейросетей. Она способна обрабатывать текст, изображения, аудио и видео, что делает ее универсальной для различных приложений. Gemini оптимизирована для работы в разных масштабах и может использоваться как в мобильных устройствах, так и в крупных серверных решениях. Ее архитектура позволяет эффективно интегрировать информацию из различных источников, обеспечивая высокую точность и производительность.
OmniFusion
В России также ведутся активные исследования и разработки в области мультимодальных нейросетей. Одним из примеров является модель OmniFusion, разработанная Институтом AIRI. OmniFusion способна распознавать и описывать изображения, объяснять, что на них изображено, а также, например, определять рецепт блюда по фотографии ингредиентов. Эта модель объединяет предварительно обученную большую языковую модель и визуальные энкодеры, что позволяет ей эффективно обрабатывать и интегрировать текстовую и визуальную информацию.
Где могут быть полезны мультимодальные нейросети
Медицина
Мультимодальное обучение находит все больше применений в самых разных сферах, где важно учитывать не один, а сразу несколько источников информации. Один из ярких примеров — медицина. Современные ИИ-системы помогают врачам анализировать не только МРТ-снимки, но и текстовые записи медицинских заключений, сопоставляя визуальные данные с описаниями симптомов. Это дает более точные результаты при диагностике и позволяет быстрее принимать решения.
Одной из передовых разработок в этой области стала модель Med-PaLM 2, созданная Google. Она способна работать с текстами медицинских статей, отчетами, вопросами и даже изображениями. В 2023 году Med-PaLM 2 показала уровень ответов, сопоставимый с профессиональными врачами: модель не просто «угадывает» диагнозы, а объясняет свою логику, ссылается на источники и может обобщать данные из разных форматов. Например, ей дают описание симптомов, результаты анализов и снимок, и она предлагает возможные варианты диагноза — с пояснением, на что именно она опирается.
Транспорт
В автомобильной отрасли мультимодальность лежит в основе работы автопилотов. Чтобы безопасно управлять транспортом, искусственный интеллект должен одновременно обрабатывать видео с камер, сигналы с лидаров, а иногда и голосовые команды водителя. Такой подход позволяет машине лучше ориентироваться в пространстве, учитывать дорожную обстановку и реагировать на изменения в реальном времени.
Один из самых известных примеров — Tesla. Автопилот Tesla обрабатывает видео с восьми камер, ультразвуковые данные, а также информацию с радара (в ранних версиях) или только с визуальных сенсоров в новых моделях. Все это объединяется в единую картину происходящего вокруг автомобиля. Система распознает объекты, предсказывает траекторию других участников движения и реагирует на дорожную ситуацию в реальном времени.
Перевод иностранных языков
Переводчики нового поколения, особенно те, что работают в реальном времени, также активно используют мультимодальные подходы. Они анализируют не только текст или аудиопоток, но и видео, чтобы учитывать жесты, мимику и интонацию собеседника. Это особенно важно в ситуациях, когда смысл зависит от контекста или эмоционального окраса.
Один из самых ярких примеров — проект Meta AI под названием SeamlessM4T. Это мультимодальная модель, способная выполнять перевод речи в речь, речи в текст, текста в текст и текста в речь на десятках языков. В отличие от классических систем она обучена на совмещенных аудио- и текстовых данных, что позволяет ей лучше учитывать интонации, паузы, особенности произношения и контекст. Модель понимает не только слова, но и то, как они произнесены, и может адаптировать перевод под эмоциональный тон высказывания. Ее можно использовать, например, для общения в реальном времени между людьми, говорящими на разных языках, с более «живым» переводом.
Образование
В образовании мультимодальные технологии используют для создания адаптивных систем обучения. Такие системы способны анализировать, как ученик читает текст, что он говорит, как реагирует на задания визуально, и даже улавливать признаки усталости или замешательства. Это позволяет выстраивать индивидуальные траектории обучения, делать процесс более эффективным и человечным.
Мультимодальное обучение становится универсальным инструментом, который помогает моделям ИИ понимать сложный, многослойный мир так, как это делает человек — через сочетание звуков, образов, текста и эмоций.
Реклама: Банк ВТБ (ПАО), erid: F7NfYUJCUneRHydG2jMo.
➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.