Читайте РБК без баннеров

Подписка отключает баннерную рекламу на сайтах РБК и обеспечивает его корректную работу

Всего 99₽ в месяц для 3-х устройств

Продлевается автоматически каждый месяц, но вы всегда сможете отписаться

Цифровой лингвист: как учить роботов разговаривать по-человечески

Фото: Unsplash
Фото: Unsplash
До 2030 года в России действует Национальная стратегия развития ИИ. Чтобы ее выполнить, требуются не только разработчики, но и цифровые лингвисты. Рассказываем, кто это такие, почему они важны и как освоить эту профессию

Кто такой цифровой лингвист

Цифровой (или компьютерный) лингвист — это специалист, который обрабатывает данные на естественных для алгоритмов машинного обучения языках, в том числе нейросетей. Благодаря такой обработке и последующей работе дата-сайентистов машины «учатся» распознавать человеческий язык и делать автоматические переводы с одного человеческого языка на другой, выявлять ошибки в текстах, превращать устную речь в письменную, правильно реагировать на голосовые команды, отвечать на вопросы в чат-ботах.

Например, чтобы научить алгоритмы находить ошибки, цифровой лингвист обрабатывает огромный массив текстовых данных, в котором размечает правильные, и неправильные варианты использования слов. Он работает над созданием электронных словарей и тезаурусов, оптическим распознаванием символом — когда машина считывает текстовые данные с изображений и делает их доступными для редактирования.

Благодаря работе цифровых лингвистов существует и пополняется Национальный корпус русского языка — открытая база русскоязычных текстов с более чем 900 млн слов, которую используют для языковых исследований.

На сайте Национального русского языка можно найти информацию по морфологии, семантике, синтаксису и другим параметрам текста — все это работа цифрового лингвиста
На сайте Национального русского языка можно найти информацию по морфологии, семантике, синтаксису и другим параметрам текста — все это работа цифрового лингвиста (Фото: Ruscorpora.ru)

Ключевые навыки цифрового лингвиста

Естественные и компьютерные языки роднит то, что они все относятся к знаковым системам. Поэтому хороший цифровой лингвист — это человек, который умеет работать с обеими системами и находить в них точки соприкосновения. Желательно, чтобы он владел не только английским, но и другими иностранными языками.

Для такого специалиста крайне важно обладать системным мышлением, хорошей памятью и способностью долго концентрироваться на монотонных задачах, поскольку ему предстоит обрабатывать большие массивы данных. Чтобы алгоритмы и нейросети запоминали верную информацию, от цифрового лингвиста требуется знание достоверных источников данных для анализа и безупречная грамотность для их верной разметки и трактовки.

Кроме того, цифровому лингвисту предстоит много общаться с разработчиками и дата-сайентистами, которые будут работать с размеченными данными. Поэтому ему важно не просто работать с данными, но и создавать методологию, объяснять ее принципы коллегам. Хорошие навыки межотраслевой коммуникации в этом плане будут не лишними.

Откуда придет профессия

Первый машинный перевод был сделан в ходе «Джорджтаунского эксперимента» 1954 года. Тогда компьютер IBM 701 перевел с русского языка на английский более 60 предложений. Так что можно говорить о том, что цифровая лингвистика де-факто существует почти 70 лет. В 1960-х годах этот раздел лингвистики появился в качестве составной части специальности «Теоретическая и прикладная лингвистика» в МГУ имени М.В. Ломоносова. Хотя инструменты и технологии за эти годы изменились, суть работы специалистов осталась прежней.

Тренды и направления профессии

Если говорить о задачах синтеза речи, машинного перевода и развитии диалоговых систем, то в них устойчивый тренд — достижение максимальной естественности языка при минимальных затратах.

Например, переводчики используют CAT-программы, которые сокращают время работы с помощью машинных переводов или технологии Translation Memory ™. Благодаря последней алгоритмы запоминают исходный и переведенный тексты и при загрузке следующих ищет совпадения, чтобы автоматически их перевести.

Уже есть языковые модели вроде GPT-3 и YaLM, которые пишут полные предложения, подсчитывая из терабайтов данных их наиболее вероятный ответ на введенные в специальное поле слова. Они используются для поисковиков, чат-ботов и создания простых текстов.

Сейчас такой настройкой машин в основном занимается человек, но в будущем и алгоритмы будут обучать друг друга естественным языкам. Ведь искусственный интеллект «Google Переводчика» уже научился самостоятельно искать перевод слов.

Также цифровая лингвистика — основа технологий для людей с ограниченными возможностями. Перевод устной речи в текст и автоматическое чтение готовых материалов, распознавание голосовых команд компьютерами, смартфонами и других «умных» устройств — направления, востребованные в здравоохранении.

По мнению продуктового аналитика 65apps и прикладного лингвиста Анны Куликовой, главная задача цифровой лингвистики сегодня — подготовка оцифрованных лингвистических данных высокого качества, особенно для языков, отличных от английского, и внедрение лингвистических технологий в производственные процессы.

«На мой взгляд, современные алгоритмы обработки естественного языка дают более чем хороший результат, в том числе в смысле «естественности». Тест Тьюринга, когда человек не может отличить, с кем он разговаривает — с человеком или компьютерной программой, уже давно и не раз был пройден. Когда-то именно он был сформулирован в качестве основного критерия способности машины мыслить, однако восстания машин мы до сих пор не наблюдаем. Новые разработки при прочих равных условиях дают прирост в сотые доли процентов точности, в то время как хорошо подобранные и грамотно размеченные лингвистические данные являются определяющим фактором эффективности работы компьютерных программ. Думаю, что общество сначала должно суметь «переварить» то, что предложила ему наука, прежде чем наука сможет совершить новый качественный скачок».

Если говорить об экономической составляющей, то по прогнозам мировой рынок обработки естественного языка (Natural Language Processing, NLP) увеличится к 2026 году до $35 млрд с ожидаемым среднегодовым темпом роста в 20,3%.

Как стать цифровым лингвистом

В России есть несколько способов получить такое образование:

  1. Бакалавриат по специальности «Фундаментальная и прикладная лингвистика», которая есть в российских вузах всех федеральных округов. Чаще всего для поступления нужны результаты ЕГЭ по иностранному языку, математике и русскому языку, но список может отличаться в разных вузах.
  2. Магистратура «Компьютерная (цифровая) лингвистика». Перечень вступительных испытаний сильно разнится от вуза к вузу: от собеседования с вопросами о теоретической лингвистике и переводом текста до двух отдельных экзаменов по иностранным языкам или конкурса портфолио. Магистерские программы есть, например, в РГГУ, МГЛУ, СПбГУ.
  3. Программы профессиональной переподготовки, которые можно пройти после получения высшего образования. Такая есть в заочной и дистанционной форме, например, в НИУ ВШЭ.
Обновлено 14.12.2021
Главная Лента Подписаться Поделиться
Закрыть