Как нейросети помогли сделать интервью с Уинстоном Черчиллем
От юриста до британского премьер-министра
«Когда мы услышали про идею об интервью с Уинстоном Черчиллем, мы поняли, что можем ее реализовать, опираясь на наш опыт работы с нейронными сетями», — говорит директор по правовым вопросам МегаФона Сергей Переверзев. Компания не первый год использует работающих на основе нейронных сетей ботов в решениях для бизнеса. Они помогают оптимизировать внутренние процессы и освобождают сотрудников от рутинной работы.
Первое такое решение МегаФон разработал в партнерстве с компаний Nlogic. Пилотную версию бота-юриста LegalApe компании публично продемонстрировали на Петербургском международном юридическом форуме в 2018 году. Проектная команда тренировала его несколько месяцев: обучала на информации из книг, судебных разбирательств и в ходе практических тренировок. На форуме LegalApe состязался в мастерстве с реальным юристом Романом Бевзенко. Машина проиграла человеку со счетом 178 против 243 очков, но все же ей удалось эффектно выступить и зарекомендовать себя.
В 2020 году МегаФон выпустил сервис «Цифровой юрист» с набором решений для автоматизации рутинной работы. В его основе лежит уже натренированная нейросеть вместе с технологией оптического распознавания символов. Работает все ровно так же, как и любой чат-бот. Человек пишет «Хочу договор на поставку диванов от компании «Икс» к 31 декабря 2021 года в количестве 20 штук с бюджетом 100 000 рублей и предоплатой 20%». Бот берет информацию из запроса, дополняет данными из корпоративной базы поставщиков и в ответ присылает готовый черновик договора, который иногда даже не нужно корректировать. В результате на ранее занимавшую как минимум полчаса операцию уходит не более 2-5 минут.
Несмотря на разные задачи, и «юридический баттл», и бот для составления договоров, и интервью с исторической личностью в своей основе похожи. Все три проекта опираются на семантический поисковик, настроенный на работу в определенной тематике. Бот-юрист обучен на юридической литературе, бот для составления договоров на корпоративных документах и базах, а бота Черчилля обучали на многочисленных трудах самого британского политика.
Технологии: что «под капотом» у Черчилля?
Технический директор проекта Андрей Богомолов вспоминает, что разработка началась в августе 2021 года. Специалисты МегаФона и Nlogic сразу сфокусировались на самых новых технологиях. В дело пошла генеративная модель GPT-3 от компании OpenAI, которую дообучили на нескольких десятках книг Черчилля. Сначала казалось, что это успех — действительно чувствовалась стилистика автора, но проявился целый ряд проблем.
Во-первых, тексты не несли в себе явных мыслей, а выглядели как слова политика, который хочет не высказать мнение, а, наоборот, уйти от ответа за счет нагромождения умных слов. Во-вторых, первая версия виртуального Черчилля часто путала факты: приписывала произведения одних художников совершенно другим и ошибалась в датах. Вплоть до забавного, когда современники Черчилля в высказываниях бота внезапно становились участниками битвы при Ватерлоо.
В этот момент разработчики решили, что нужно переделывать все с нуля. В основу нового подхода положили фактчек — проверку фактов. Упор сделали на то, чтобы бот всегда мог подтвердить свои высказывания отсылкой к источнику — конкретной книге или выступлению Черчилля. Для этого дата-саентисты обучили нейронную сеть на базе разработанной компанией Google архитектуры BERT на всех оцифрованных книгах Черчилля. Это позволило создать алгоритм, который для любого вопроса подбирал релевантные отрывки из высказываний Черчилля. Если ответить на сообщение бота словом «источник», он сразу же пришлет список ссылок.
В результате получился неплохой поисковик по трудам Черчилля, но для проведения интервью этого было пока недостаточно. На следующем этапе улучшения бота разработчики составили датасет из нескольких тысяч вопросов на самую разную тематику от сразу приходящего на ум «любите ли вы сигары?» до нетривиального по меркам середины XX века «когда появится искусственный интеллект?». К разработке на несколько месяцев подключились команды разметчиков. В автоматическом режиме бот генерировал ответы на вопросы, а живым людям предстояло их обработать: указать, где нейросеть справилась хорошо, а где — не очень. И это сильно помогло.
Например, очень бросалось в глаза то, что бот иногда использовал метафоры со словом «звезды» в качестве ответов на вопросы про космос, но реальным ответом, конечно, они не являлись. Разметчики маркировали их как неудовлетворительные, и нейросеть адаптировалась. В этом помогла технология сиамских сетей. Ее суть в том, что специальная сеть на основании данных определяет степень сходства объектов (в нашем случае: связки вопрос-ответ). Пришлось пройти сразу несколько итераций такой «шлифовки», чтобы добиться приемлемой точности.
На этапе тестирования полученного алгоритма выяснилось, что не всегда человек оказывается умнее машины. Отвечая на вопрос о двигателях внутреннего сгорания, виртуальный Черчилль подобрал на первый взгляд нелогичный ответ: «в будущем, когда ДВС станут массовыми…». Разметчикам он показался неудовлетворительным, но при проверке с отсылкой к источнику выяснилось, что бот повторяет цитату очень раннего Черчилля. Сэр Уинстон родился в 1874 году, первый автомобиль запатентовали только в 1886 году, а бензиновый ДВС начал постепенно становиться массовым решением лишь в начале XX века, когда возраст Черчилля подходил к 30 годам.
После этого важно было сделать ответы бота похожими на речь живого человека. Изучение множества интервью с разными политиками помогло выявить общие моменты. Два из них стали основными целями для имитации виртуальным Черчиллем:
- в ответе на вопрос человек чаще всего выражает несколько идей,
- никто не перечисляет эти идеи пунктами, а связывает вместе в непрерывную речь.
Чтобы решить задачу, разработчики собрали несколько типов вводных конструкций для разных повествований. Например, вторая фраза может быть следствием первой, но может и отрицать ее, а также дополнять. На собранных примерах дата-саентисты обучили еще одну нейросеть, определяющую конкретный тип связи между двумя предложениями. Для каждого выбрали несколько сотен вариантов «фраз-связок». Например, если ранний Черчилль противоречил позднему в ответах, то нейросеть использовала конструкцию «тем не менее». В более сложных случаях бот применял другой подход, показывая разницу мнений на одну и ту же тему: давал отсылки вроде «в своем выступлении такого-то года я говорил…, но позже я пересмотрел свою точку зрения». Это помогло сделать речь виртуального сэра Уинстона структурированной и «человечной».
Будущее виртуального сэра Уинстона
Прочитать интервью РБК с виртуальным Черчиллем и оценить глубину его естественности вы можете сами по этой ссылке. Но есть ли у бота и, главное, стоящей за ним технологии будущее? Несмотря на то, что для разработчиков это был скорее игровой формат, они приводят несколько потенциальных вариантов применения технологии. Наиболее очевидный лежит в гуманитарной плоскости — уже сейчас этот бот может сэкономить время на поиск цитат сэра Уинстона. Кроме того, технология позволяет создать уже на готовой основе бота, обученного на текстах любой исторической личности — от Платона до Маркса.
Но в глобальном смысле Nlogic и МегаФон видят во всем этом следующий этап развития поисковых систем. Когда-то поисковая строка для ввода запроса и появляющийся после этого список релевантных ссылок стали революцией. Но специалисты компаний отмечают, что модель устарела. На смену ей придут боты, которые смогут обрабатывать запрос, самостоятельно отбирать нужные результаты сразу из нескольких источников, а затем компилировать их в единый связный текст так, как это бы сделал настоящий живой ассистент.