Искусственный интеллект — как развивается одна из главных технологий века

Фото: Freepik
Фото: Freepik
Что такое ИИ, как и где применяется и какие у него направления развития — об этом будут говорить на международной конференции «Сбера» AI Journey 2023

Искусственный интеллект активно используется во многих сферах разработки и в разных областях деятельности. Речь, конечно, не о том, чем нас пытались пугать голливудские сценаристы, — никакого восстания машин пока не произошло. Однако мы ежедневно сталкиваемся с применением ИИ в обычной жизни: голосовые помощники, дорожные камеры, которые с помощью нейросетей выявляют нарушения вроде непристегнутого ремня, и даже создание изображений и текстов.

Но области применения ИИ намного шире и этим не ограничиваются, поэтому сейчас над его развитием бьются лучшие умы планеты. Международная конференция AI Journey 2023, организованная «Сбером», является самой крупной по числу участников из различных компаний, занимающихся разработкой ИИ.

Кроме того, разработчики получили шанс побороться за внушительный призовой фонд (суммарно 11 млн руб.) в соревновании AI Journey Contest 2023. Принять участие в конкурсе мог любой желающий, а самая сложная задача — создание мультимодальной модели, новой ступени на пути появления так называемого сильного искусственного интеллекта.

Путь к AGI — сильные мультимодальные архитектуры

Мультимодальным моделям посвящено отдельное выступление на AI Journey 2023, потому что сейчас они находятся на пике популярности и становятся эффективнее с каждым последующим релизом. AGI (Artificial General Intelligence), «сильный искусственный интеллект» — это Святой Грааль каждого разработчика ИИ. Итоговая цель — создание системы, которая способна справляться с любыми задачами не хуже человека.

Сложность создания AGI не только в том, что для его работы нужны огромные вычислительные мощности, — программисты и ученые все еще спорят, какие подходы для достижения цели станут самыми эффективными. Однако не вызывает сомнений, что будущее — за мультимодальными архитектурами, где языковая нейросеть сама сопоставляет видео или изображение с «правильным» текстом. ИИ уже умеет делать правильные подписи к картинкам или роликам, однако до полноценного «мозга» пока далеко.

Генеративный ИИ: Kandinsky, GigaChat

Разумеется, частью любой мультимодальной архитектуры является и генеративный ИИ — разновидность искусственного интеллекта в области создания текстов, изображений или видео. Разработанная «Сбером» нейросеть Kandinsky способна делать высококачественные изображения на основе текстовых запросов и уже является одной из самых популярных среди разработчиков и дизайнеров.

Еще один продукт «Сбера» — нейросетевая модель GigaChat, которая умеет отвечать на вопросы и вести диалог на русском языке. Работает она по принципу чат-бота, то есть сначала нужно сделать запрос, а затем GigaChat его обрабатывает и выдает ответ. Важным шагом для больших языковых моделей стало использование технологии RLHF (Reinforcement Learning from Human Feedback — обучение с подкреплением на основе отзывов реальных людей), поэтому ответы выглядят совершенно логичными.

<p>Изображение сгенерировано нейросетью Kandinsky 2.2 по запросу &laquo;портретное фото девочки в костюме принцессы на фотоаппарат Olympus, правильная анатомия, детализированное лицо&raquo;</p>
Индустрия 4.0 Kandinsky 2.2: «Сбер» обновил нейросеть для генерации изображений

GigaChat в виртуальном ассистенте «Салют»

Развитие умных устройств «Сбера» идет в ногу с современными трендами в области ИИ. Теперь нейросетевая модель GigaChat с ассистентом «Салют» доступна не только в приложениях. Например, можно общаться с колонками SberBoom — попросить сочинить сказку, предложить варианты подарка, обсудить идею, придумать поздравление, новый рецепт, шутку или название, составить пошаговую инструкцию или план тренировок. Сервис GigaChat умеет «чувствовать» контекст диалога, поэтому в запросе есть возможность добавлять больше деталей или поменять стиль, жанр и объем ответа.

Фото:Телеграм-канал GigaChat
Индустрия 4.0 GigaChat: что умеет новая российская нейросеть

Генеративные модели для 3D-контента

Вслед за текстовыми и графическими генеративными моделями активно начали появляться нейросети, создающие 3D-объекты. Причем существуют модели, которые делают трехмерные «рисунки» не только по текстовым запросам, но и по загруженным изображениям. Зачем все это нужно? В первую очередь такой функционал сильно сокращает срок разработки игр и других продуктов, где используется 3D-графика, особенно когда дело касается каких-то выдуманных объектов, где не требуется точность прорисовки или копирования.

AI-сурдопереводчик и распознавание жестового языка

Для поддержки людей с нарушениями речевого или слухового аппарата появляются сурдопереводчики на основе искусственного интеллекта — теперь нейросети способны создавать видеоизображения с хорошо прорисованными кистями рук, что очень важно для языка жестов.

А команда «Сбера» создала для разработчиков специальный датасет Slovo для распознавания русского жестового языка. С помощью метода MediaPipe, который определяет позу, движения и мимику человека, нейросеть формирует виртуального сурдопереводчика. Кроме того, SberDevices предоставляют доступ к датасетам Golos (преобразование голоса в текст) и Dusha (распознавание эмоций), которые также в дальнейшем можно использовать для слабовидящих или слабослышащих людей — например, в видеоконференциях или решениях для государственных и образовательных организаций.

Динамические графовые нейронные сети

Появление моделей нейросетей на графах, являющихся нерегулярными структурами данных, — один из этапов развития искусственного интеллекта. Графовые нейросети появились, когда выяснилось, что для анализа структурных данных, которые описывают объекты с набором признаков и оснащены дополнительной информацией о связях между объектами, не подходят классические конструкции нейронных сетей.

Главное отличие графов — они не имеют регулярной структуры, как статичные изображения или текст, где есть четкая последовательность слов. Например, на основе дорожных графов строятся маршруты в навигационных приложениях с функцией отображения пробок — нейросеть сама рассчитывает оптимальные варианты в условиях постоянно изменяющихся данных.

Виртуальный секретарь для борьбы с мошенниками

Еще один пример использования нейросетей в быту — виртуальный секретарь. Голосовые ассистенты на основе искусственного интеллекта способны самостоятельно отвечать на вызов, а на основе алгоритмов big data (больших данных) «умный» определитель выведет на экран смартфона не просто незнакомый номер, а еще и то, к какой категории относится звонок — надежный, с возможным наличием спама или нежелательный.

Банки и операторы мобильных сетей вынуждены внедрять такие технологии, поскольку за последние годы количество спам-звонков значительно увеличилось и от действий мошенников пострадали многие абоненты.

18+

Реклама, ПАО Сбербанк, erid 4CQwVszH9pWuK6PGQjR

Обновлено 22.11.2023
Главная Лента Подписаться Поделиться
Закрыть