Как языковое разнообразие связано с будущим искусственного интеллекта

Фото: Freepik
Фото: Freepik
В 2022 году крупнейшая конференция по языковым технологиям и глубокому обучению объявила особой темой языки мира. О том, как связаны эти две области и как лингвистика обогащает ИИ, в материале РБК Трендов

Об экспертах:

  • Татьяна Шаврина, руководитель научной группы NLP и FusionBrain в Институте искусственного интеллекта AIRI, руководитель команды AGI NLP SberDevices.
  • Олег Сериков, научный сотрудник группы NLP в Институте искусственного интеллекта AIRI.

В мире насчитывается от 6 до 7 тыс. живых языков, и их количество стремительно уменьшается: только за ХХ век языков в мире стало в два раза меньше. Основные причины такого процесса — глобализация и другие социоэкономические изменения в обществах, в результате которых люди переходят на более «престижный» или «перспективный» язык и учат ему своих детей.

До последнего момента основными специалистами, изучающими и сохраняющими языковое разнообразие, были лингвисты. Однако в последние годы разработчики ИИ, инженеры и представители цифровых гуманитарных наук ничуть не меньше заинтересованы в сохранении и развитии языкового разнообразия. Малые языки, языки коренных народов, и в целом самые разные нетитульные языки входят в инженерное понятие так называемых «малоресурсных языков».

Почему языки мира важны для ИИ

Искусственный интеллект и лингвистика совпадают в своем стремлении моделировать язык. Естественный язык — будь то русский, английский, марахти или фарси — обладает общим набором универсальных грамматических свойств. Все то, что на языках мира сказать можно, и все то, что на всех языках мира сформулировать нельзя — это сложная система, в теории имеющая нейробиологические основания. Теряем разнообразие — теряем самые доступные следы мышления человека и разнообразие этого мышления. Пренебрежение любым языком лишает нас множества возможностей заметить закономерности в сложной системе мышления.

Сохранение языкового разнообразия в форме текстов, аудиозаписей речи, видеонтервью также несет в себе этически благодарную задачу сохранения и развития культурного разнообразия, упрощения культурного обмена, внедрения технологий в новые области и в целом формирует глобальное мировое сообщество неравнодушных активистов, ученых, разработчиков. Можно заметить, таких задач в сфере разработки в целом немного, да и специфика задачи помогает формировать коллаборации специалистов из самых разных специальностей, и приводит многих разработчиков в новые, более гуманитарные сферы.

Фото:Pexels
Социальная экономика Сколько языков останется к концу XXI века и что мы можем с этим сделать

К чему стремится такое сообщество? Построение общей модели, описывающей функционирование человеческого языка, его связи с мышлением, позволит создавать универсальные интеллектуальные системы, обладающие знаниями, способностью принимать решения и способностью объяснить эти решения на любом языке.

Такие системы носят название «сильный ИИ» (AGI, artificial general intelligence). Чем больше языков мы сможем описать и сохранить, тем больше различных культурных особенностей, способов думать про мир и жизнь мы добавим в сильный ИИ. Если ранее в центре внимания разработчиков были исключительно популярные языки, в основном английский, то сейчас ситуация меняется. Более глубокое проникновение технологий в сообщества с малоресурсными языками во многом помогает создать для них среду для развития новых продуктов: автоматического перевода, диалоговых ассистентов и чат-ботов, образовательных приложений.

Олег Сериков, научный сотрудник группы NLP в Институте искусственного интеллекта AIRI:

«Сейчас совершенно базовыми благами стали, например, автоподсказка в клавиатуре, использование чат-бота для взаимодействия с бюрократическими сервисами, автоматический перевод веб-страниц на родные языки. Однако эти блага доступны в полной мере лишь подавляющему, но все-таки не абсолютному большинству людей: не всем посчастливилось говорить на одном из десяти привилегированных «больших» языков. Мультиязычность в NLP технологиях позволит преодолеть этот барьер».

При этом для сохранения языков самих по себе технологий недостаточно, хотя научные исследования, опирающиеся на передовые методы, могут подсказать потенциально успешные стратегии. Важнейший вклад в сохранение языков вносит атмосфера, ощущение уместности, доступности и открытости к использованию языков. Например, самые успешные примеры по сбережению языков оказались таковыми во многом благодаря концепции «языковых гнезд» — сообществ, где у детей есть возможность развиваться целиком, будучи постоянно и подолгу погруженными в язык. Технологии, доступные на языке, могут оказаться инструментом для обеспечения такой доступности и помочь языковому сообществу почувствовать себя полноправным участником большего мира.

Как ИИ обучают языкам

Традиционно для современных систем ИИ не было принято «особенным» образом готовить данные. Машине, например, ставилась задача научиться заполнять пропуски в текстах, а затем ей показывали множество текстов из «Википедии» с нарочно «выкинутыми» словами. Способные к решению такой задачи модели затем переделывали для решения конкретных задач. Однако огромных, подобных «Википедии», текстов на малых языках нет. Эту проблему и решают техники мультилингвальности.

Технологические компании публикуют научные работы, в которых описывают системы, способные работать с десятками и сотнями языков: например, проект No language left behind представляет систему машинного перевода, с помощью которой можно осуществлять машинный перевод с языка на язык для 200 языков.

Научная работа Building Machine Translation Systems for the Next Thousand Languages ставит задачу еще шире и представляет систему перевода для следующей тысячи языков, еще не включенных в практику ИИ-экспериментов.

И, наконец, проект BLOOM — самая большая нейросеть-декодер, имеющая 176 млрд параметров, пишущая тексты на 59 языках мира, включая все семейство индийских языков и нигеро-конголезские языки.

Все это — работы 2022 года. В число языков, с которыми теперь работает ИИ, входит даже пирахан — язык охотников-собирателей из Амазонии, вызвавший немалые дебаты среди лингвистов в ХХ веке.

ЮНЕСКО объявило всемирное десятилетие языков коренных народов, и в рамках этой инициативы малоресурсные языки и многоязычность в языковых технологиях занимают центральные позиции.

Существует сообщество исследователей и разработчиков, отдельно занимающихся построением систем для автоматической обработки «мертвых» языков. Например, сообщество и одноименная библиотека CLTK (Classical Languages ToolKit) занимаются системами обработки и анализа классических языков, таких как древнегреческий, и даже делают полезные пользователям программы, например, исправлятели опечаток для тех, кто работает с такими языками. А в рамках недавнего соревнования AI4TALK (GitHub.com/AIR-Institute/AI4TALK) участники построили системы, в том числе подступающиеся к распознаванию камасинского языка.

Вызовы и перспективы для российских исследователей

Языки народов России и стран СНГ также не остаются в стороне. В России насчитывается до 300 языков и диалектов, многие из которых в этом году развивают языковые технологии.

С точки зрения ответственной разработки речевых технологий, перед разработчиками стоят важные задачи:

  • Как мы можем предоставить преимущества языковых технологий, не требуя стандартизации языков, официальной орфографии?
  • При работе с локальными сообществами, как нам продвигать активное вовлечение носителей языка в разработку, в контроль качества технологий?
  • Как мы можем отойти от англоцентричной системы разработки в речевых технологиях, ориентироваться на все типологическое разнообразие языков?

Фото:Unsplash
Социальная экономика Обратно в Вавилон: нужен ли нам универсальный язык

В этом году научная группа в Институте искусственного интеллекта AIRI запустила на AIJ 2022 соревнование по ASR (automatic speech recognition) и автоматическому переводу для нескольких языков народов России. AI4Talk — это NLP-задача в которой собрали данные таких языков, как:

  • башкирский (bak),
  • марийский (mhr),
  • камасинскй (xas),
  • татарский (tat),
  • эвенкийский (evn),
  • якутский (sah).

До включения в процесс сохранения языков с помощью технологий, существует этап сбора данных. Одним из примеров такой масштабной работы являются экспедиции школы Лингвистики НИУ ВШЭ. К слову, в процессе организации конкурса Ai4Talk использовали в том числе и предоставленные исследователями из ВШЭ материалы. Годами собирать информацию «в поле» и затем вести публикацию материалов для машинного обучения под открытой лицензией CC 4.0 — это огромный труд, который обязательно принесет пользу как для развития многоязычного распознавания речи, так и для создания более доступных технологий для языков малых народов.

Одна из основных миссий речевых технологий — перенести малоресурсные языки в многоресурсную среду, где для них будут созданы такие условия, которые способствуют развитию более доступных технологий и продуктов. Именно включение языкового и культурного наследия в актуальную реальность способствует как сохранению, так и его динамичному развитию.

Обновлено 13.12.2022
Главная Лента Подписаться Поделиться
Закрыть