Что дают соревнования участникам
Хакатоны и другие IT-соревнования обычно воспринимают как возможность показать свои скиллы, побороться за денежный приз, найти заказчиков или работу. Но вдобавок такие мероприятия позволяют развить компетенции и прокачать важные для разработчиков навыки.
Это особенно важно для тех, кто работает с быстро развивающимися технологиями. Например, с искусственным интеллектом. Новые задачи и решения появляются в этой сфере так часто, что ни университеты, ни отдельно взятые IT-компании не всегда за ними успевают. Поэтому и организуют хакатоны и IT-конкурсы, где предлагают участникам сначала вместе подумать над самыми актуальными и сложными задачами, а затем попробовать решить их.
«Практически любое соревнование позволяет познакомиться с некоторой реальной задачей, которую прямо сейчас пытается решить наука или бизнес», — подчеркивает Денис Димитров, исполнительный директор по исследованию данных Сбербанка.
На конкурсах по искусственному интеллекту организаторы обычно предоставляют некоторый набор обучающих данных и базовое решение, с которым участникам предстоит работать и которое предстоит дорабатывать.
По его словам, участники любого соревнования в области ИИ получают доступ к обучающему датасету (набору данных, на которых предстоит учить модели, часто предварительно размеченному), бейзлайну (базовому решению задачи), списку релевантной литературы. Эти материалы, продолжает Димитров, значительно упрощают знакомство с задачей, ее спецификой и возможным вариантом решения, которое участникам в рамках соревнования предстоит улучшить или полностью переделать.
«Любое соревнование в области ИИ в конце концов очень сильно прокачивает как знания предметной области, так и инженерные навыки обучения моделей искусственного интеллекта», — добавляет эксперт.
Создание больших мультимодальных моделей
Популярные нейросетевые модели вроде ChatGPT или GigaChat неплохо научились работать с текстами. Но область применения таких решений ограничена. Остается много задач, которые требуют от моделей искусственного интеллекта способности понимания других модальностей и умения работы с ними — например, с визуальными образами (изображения, видео), звуком и разными временными последовательностями (такими, как, например, данные о погоде за разные периоды времени).
«Допустим, у вас сломалась машина, вы открываете капот, делаете фото — и модель сразу подсказывает, что именно сломалось и как это починить, или находит ближайшее место, куда можно обратиться за помощью. Или идете по парку и хотите узнать, как называется конкретное растение или какая птица сейчас поет. Можно создавать под каждую такую задачу свою специализированную модель, но таких задач в мире слишком много и концептуально это тупиковый подход», — говорит Димитров.
Поэтому, объясняет он, необходима одна большая модель, которая подобно СhatGPT в случае текстов сможет понимать сразу несколько модальностей и решать в этих модальностях потенциально бесконечное число задач. У такого рода универсальных моделей очень много вариантов применения в бизнесе и возможностей для их монетизации.
Созданию такой мультимодальной архитектуры посвящена номинация Strong Intelligence на соревновании AI Journey Contest 2023, которое проводит «Сбер» при поддержке Института искусственного интеллекта AIRI в рамках своей ежегодной конференции AI Journey.
Участникам трека Strong Intelligence нужно создать нейросеть, способную вести мультимодальный диалог с пользователем. Решая эту задачу, они смогут прокачать свои скиллы в таких областях глубокого обучения, как обработка естественного языка, компьютерное зрение, обработка аудио, и создать модель, способную работать сразу с тремя самыми популярными модальностями: текст, изображение и звук. А также смогут ближе познакомиться со спецификой обучения больших языковых и мультимодальных моделей — сейчас это один из самых востребованных навыков на рынке.
Топ-10 решений затем примут участие в специальной игре на эрудицию. Модели будут отвечать на сложные логические вопросы, сочетающие текстовую, визуальную и аудиоинформацию.
Какие еще задачи предложили участникам на AI Journey Contest
- Unique RecSys — обучить модель, в том числе с помощью техники Reinforcement Learning (обучение с подкреплением), которая будет подбирать максимально релевантные для пользователей рекламные баннеры на сайте и в приложении «СберБанк Онлайн».
- Personal AI — создать ИИ-помощника, способного рекомендовать банковские продукты, товары на маркетплейсах и музыкальные треки.
- Equal AI — обучить модель распознаванию русского жестового языка по видео.
- Rescue AI — разработать модель, умеющую находить хромосомные перестройки, то есть различные генетические мутации (изменение порядка, удаление или дупликация фрагментов) в ДНК человека.
Заявки на AI Journey Contest принимаются до 10 ноября 2023 года.
Разработка и применение алгоритмов компьютерного зрения
Компьютерное зрение (Computer Vision, CV) — одна из самых интересных для науки и бизнеса областей искусственного интеллекта. Нейросети могут обнаруживать, отслеживать, классифицировать объекты. Это открывает широкое поле для их практического применения — это и диагностика по рентгеновским или МРТ-снимкам, и распознавание лиц, и предсказание погоды по снимкам из космоса, и многое другое.
«Как и в любой другой области ИИ, в компьютерном зрении практически нет задач, решаемых моделями в реальном мире со 100-процентной точностью. Какую бы проблему мы ни взяли, можно найти набор данных, на которых существующие модели работают не очень хорошо, а поэтому качество решения этой задачи можно улучшить», — говорит Денис Димитров.
Среди самых известных соревнований в области компьютерного зрения — OpenCV AI Competition. Организаторы не ставят никаких ограничений по типам проблем или задач. Участники могут предложить на конкурс любой собственный проект.
То есть, помимо работы непосредственно с компьютерным зрением, дополнительно можно прокачать навыки в любой интересной области, включая, например, робототехнику или медицинские технологии. Единственное условие — использовать библиотеку OpenCV, в которой собраны CV-алгоритмы с открытым кодом.
В 2022 году первое место заняла команда Recycling Rush. Она предложила идею и разработала робота для сбора растительности с поверхности озера Титикака. Устройство самостоятельно перемещается по воде, рассчитывает необходимую скорость и углы поворота, распознает вредоносные растения на поверхности и собирает их с помощью сетки.
Кроме того, среди проектов победителей — лазерный оптический 3D-сканер, приложения для слабовидящих, модели для распознавания эмоций, а также более 30 других решений, вплоть до системы распознавания текста в древних тибетских книгах.
Развитие текстовых моделей и технологии speech-to-text
Текстовые модели ИИ считаются более или менее работоспособными, многие бизнесы уже используют их в своих процессах — например, для коммуникации внутри компаний или с клиентами.
«Языковым моделям еще есть куда развиваться. Даже самые продвинутые и популярные модели вроде ChatGPT-4 качественно отвечают далеко не на все вопросы, допускают ошибки и галлюцинируют», — объясняет Денис Димитров.
Ситуация осложняется, когда запрос формулируется устно. Чтобы обработать такой запрос, модель сначала преобразует его в текст. В процессе такого преобразования тоже возникают ошибки. В результате нормальный устный диалог с машиной становится невозможным.
Эту задачу пытались решить на конкурсе Global AI Challenge, который организовала китайская Huawei. По словам Димитрова, такие кейсы помогают развить навык работы с большими моделями и огромными массивами данных.
«Этот кейс в чем-то похож на нашу задачу Strong Intelligence. Но фокус тут не на мультимодальности, а на том, чтобы прокачать текстовую составляющую, сократить количество ошибок и галлюцинаций модели», — объясняет эксперт.
Какие еще задачи были предложены участникам на Global AI Challenge от Huawei
- Интеллектуальный контроль качества визуализации данных дорожного движения — необходимо создать модель, которая проверяет карты, созданные с помощью навигационных систем, и устраняет ошибки.
- Прогноз эффективности рекламы с помощью новостных лент — необходимо проанализировать поведение пользователей на новостных лентах, построить модели их интересов и перенести в сферу рекламы.
Создание рекомендательных систем
Рекомендательные системы нужны b2c-компаниям практически во всех отраслях. «Это очень важная задача для бизнеса — построить умную систему рекомендаций, которая покажет пользователю релевантные товары, музыку, фильмы или другие продукты. Компаниям это приносит дополнительную выручку», — говорит Денис Димитров.
Он отмечает, что с методами создания рекомендательных систем не всегда знакомят в университетах. А конкурсы позволяют ближе познакомиться с этой предметной областью. Кроме того, участники получают доступ к алгоритмам, которые бизнес использует в своих процессах.
Поскольку такие решения нужны везде, задачи по их созданию ставят на многих конкурсах как международных, так и российских. Например, на хакатоне «Цифровой прорыв. Сезон: Искусственный интеллект» одной из задач было создание решения для видеохостинга Rutube.
Платформа предложила участникам разработать систему для рекомендаций видео на основе истории просмотров и метаданных видео. Решение должно повысить вовлеченность пользователей, аудиторию блогеров и объем загружаемого контента, привлечь новых подписчиков.
Как будут развиваться задачи в области ИИ
Пока многие задачи лучше решаются с помощью специализированных моделей. Но ситуация постепенно меняется из-за появления нейросетей, которые можно использовать как универсальные решения в разных сферах.
«Последние несколько лет в области машинного обучения и искусственного интеллекта можно охарактеризовать как расцвет больших моделей, особенно это видно на примере обработки естественного языка. Большие языковые модели уже сейчас часто работают более качественно, чем специализированные модели, заточенные, например, на суммаризацию текста, его стилизацию или генерацию кода», — рассказывает Димитров.
Это стало возможным за счет огромного объема данных, на которых обучались модели. По словам эксперта, такие модели уже сейчас развиваются во многих областях: и в компьютерном зрении (например, модели генерации изображений и видео по тексту, такие как Kandinsky), и в анализе и генерации речи, и в рекомендательных системах.
В будущем большие мультимодальные модели смогут решать огромное количество задач. А значит, навык работы с разными модальностями уже становится одним из самых актуальных для специалистов в области искусственного интеллекта.