Как языковые исследования помогают развиваться голосовым помощникам

Фото: Shutterstock

Проанализировав тысячи телефонных разговоров, эксперты выяснили, как строится диалог человека и виртуального собеседника. Как разработчики могут использовать эти данные для дальнейшего развития речевых технологий?

⏰ Время на чтение: 7–9 минут

Об экспертах:

Дмитрий Чуйко, менеджер проектов в компании Neuro.net;
Екатерина Майорова, эксперт Института научной информации по общественным наукам РАН (ИНИОН РАН).

Автоматизированная коммуникация активно развивается, и голосовые помощники все чаще выполняют функции собеседников-людей в бизнес-процессах и в повседневной жизни потребителей. По прогнозам экспертов исследовательской компании Meticulous Research, к 2025 году рынок речевых технологий вырастет почти в три раза — до $26,8 млрд.

Такое стремительное развитие становится возможным благодаря технологиям искусственного интеллекта и машинного обучения. Нейросети обучают голосового помощника и позволяют ему правильно распознавать до 98% речи, а еще определять пол, возраст и даже настроение собеседника и поддерживать естественный диалог.

Для жизни и бизнеса

По прогнозам аналитиков, количество устройств со встроенным голосовым помощником к 2024 году вырастет до 8,4 млрд и превысит численность населения Земли. Персональные ассистенты пользуются большой популярностью: они могут искать информацию, управлять смартфоном и бытовой техникой и делать покупки.

Экономика инноваций Как работают голосовые помощники: подкаст РБК Тренды

Бизнес тоже не отстает от тренда. В основном компании внедряют роботов-операторов для улучшения сервисного обслуживания. Такой виртуальный агент успешно помогает сотрудникам там, где требуются быстрые ответы на типичное обращение. Он может поддерживать одновременно тысячи диалогов и работать круглосуточно. Он освобождает операторов от рутинных задач и сокращает расходы компании.

По нашим данным, использование голосового помощника в пять раз выгоднее найма оператора контакт-центра. В случае с виртуальным агентом минута разговора будет стоить компании ₽4-6, а с обычным оператором — уже ₽20-30.

Высокий потенциал использования виртуальных агентов отмечается в следующих сферах:

банковский сектор;
телекоммуникации;
ретейл и e-commerce;
страховые компании;
государственные учреждения (МФЦ, «Госуслуги», горячие линии);
сервисные компании: курьерские службы, доски объявлений, интернет-провайдеры и т.д.

В связи с пандемией COVID-19 голосовых агентов начали чаще использовать в здравоохранении: они помогают операторам горячих линий справляться с огромным количеством обращений, консультируют пациентов и ведут запись на вакцинацию.

Несмотря на развитие технологий, голосовые помощники еще только учатся быть похожими на людей. Иногда в собеседнике узнают робота: чаще всего это происходит, когда он допускает логическую ошибку. Правильно интерпретировать фразу мешают фоновые шумы, качество связи или юмор: виртуальные агенты плохо понимают шутки.

В 2020 году сотрудники Neuro.net и исследователи ИНИОН РАН заинтересовались диалогами людей с алгоритмами ИИ и подробно изучили человеческие реакции на общение с виртуальным собеседником.

Экономика инноваций Виртуальные ассистенты — реальные помощники: «Что изменилось? LIVE»

«Вы робот?»: как мы строим диалог с виртуальным агентом

Коммуникация, в которой один из собеседников — программа, изучена мало. Разговорный искусственный интеллект не случайно считается одним из самых сложных для разработки среди ИИ: здесь пересекаются не только программирование и математика, но и лингвистика. Но для того, чтобы вести разработки в нужном направлении, важно разобраться, какие трудности возникают в таком общении сегодня и почему люди не всегда рады слышать виртуального агента.

Чтобы понять, как люди общаются с виртуальным собеседником, эксперты использовали 2 324 записи реальных разговоров с телефонными роботами. Сомнения в «человечности» оператора были зафиксированы в 114 из них.

Сколько людей готовы общаться с голосовым помощником

В первую очередь исследователи изучили эмоциональные реакции собеседников.

Больше половины людей, которые узнали в собеседнике робота (60% респондентов), продолжили нейтральное общение. Они слушали ИИ-собеседника и давали содержательные ответы, принимая «правила» взаимодействия;
33 человека (29% респондентов) отреагировали на бота негативно. В 10 случаях вешали трубку, в 23 — выражали недовольство. Например, говорили, что не любят обзвоны, сообщали, что не будут продолжать разговор, пока не услышат живого человека, или спрашивали у бота, считает ли он себя умнее Siri;
Еще 12 собеседников продемонстрировали позитивную реакцию. Программу называли прикольной, иногда смеялись.

Анна Прасолова, психолог, специалист в области психоаналитического консультирования:

«Оценивая результаты исследования, важно помнить, что оно проводилось в разгар пандемии. Люди находились в изоляции, и неопределенность порождала повышенную тревожность. Тревога всегда влечет за собой обострение негативных эмоций. В тревожных ситуациях нам очень важна близость, теплые отношения, тесная коммуникация. То есть все то, чего сегодня еще не умеют давать программы. А еще негативный стиль разговора может быть реакцией на обнаруженный обман. Человек был уверен, что говорит с человеком. И изменение условий беседы без его ведома можно рассматривать как своего рода нарушение границ».

Индустрия 4.0 Мир после коронавируса: ждет ли нас эпидемия тревоги и депрессии?

Перехитрить машину

На следующем этапе исследования специалисты подробно изучили особенности изменений в речи и поведении людей сразу после того, как они поняли, что их собеседник — робот. И выявили два преобладающих сценария.

Пример 1: Бот оповещает о том, что посылка находится в пункте выдачи, и предлагает продлить срок хранения.

Человек: А скажите, пожалуйста: продлить можно?

Робот: Продлить вам, сможете подойти?

Человек: Да, все верно. Робот, видимо, разговаривает...

Робот: Да, вы правильно догадались: я электронный помощник. Если хотите, я переведу звонок на специалиста, он ответит на все ваши вопросы.

Человек: Нет, спасибо. Продлить до послезавтра.

Девушка использует в последней реплике инфинитив глагола: «продлить» вместо «продлите». Люди привыкли думать: программы понимают только простые конструкции. А еще после того, как клиентка узнала в операторе робота, пауза между ее словами увеличилась в 11 раз. Исследование показало: многие респонденты заметно изменяют речь для более точного распознавания компьютером.

Пример 2: Робот спрашивает клиента о качестве банковских услуг.

Робот: Оцените, пожалуй̆ста, по 10-балльной шкале вероятность того, что вы порекомендуете дебетовую карту своим знакомым, друзьям, коллегам, где 0 — это «точно не порекомендуете», 10 — «обязательно порекомендуете»?

Человек: А вы бот или живой человек?

Робот: Да, вы правильно догадались, я электронный помощник. Скажите, пожалуй̆ста, с какой вероятностью вы бы порекомендовали дебетовую карту своим друзьям и знакомым, если оценивать по 10-балльной шкале. Сколько бы вы поставили, 0 — «точно не порекомендуете», 10 — «обязательно порекомендуете»?

Человек: 12.

Робот: А подскажите, пожалуй̆ста, причину столь низкой оценки.

Человек: Почему низкой, 12 же больше десяти. Я больше максимума поставил.

Во втором примере мы видим, как клиент намеренно ставит «неправильную» отметку. Отказ от сценария, который заложен в систему бота, попытка «запутать» электронного собеседника — это вторая распространенная реакция.

Индустрия 4.0 «Заходит в бар Илон Маск»: нейросеть GPT-3 научили рассказывать анекдоты

«Преобладающие реакции, на мой взгляд, объясняются следующим: человек упрощает речь, демонстрируя умение адаптироваться к неожиданным ситуациям. Это здоровая реакция психики: у нас есть цель (получить информацию), и если на пути к ее достижению мы сталкиваемся с неожиданностями, то проявляем гибкость и перестраиваемся, — утверждает Анна Прасолова. — А вот попытки «запутать робота» могут указывать на проявление подавленной агрессии. Психика ищет для нее выход, и нечеловеческий агент оказывается очень «удобным»: человек, который не владеет навыками безопасного проявления негативных чувств, может вступать с ним в конфликт».

Что в итоге

На материале исследования можно сделать несколько выводов:

Лишь очень небольшое число людей может определить в собеседнике голосового робота;
Треть респондентов реагирует на виртуального агента негативно. Необходимы дальнейшие доработки и обучение голосового помощника, которые помогут сделать общение комфортным, естественным и привычным;
Люди используют в диалоге с виртуальным собеседником две стратегии поведения: упрощают речь для продуктивной коммуникации либо пытаются «запутать» виртуального агента, что является примером деструктивного языкового поведения;
С позиций психолингвистики эту особенность можно рассматривать как проявление культурно-психологической оппозиции «свой/чужой». Вопрос заслуживает дальнейшего изучения, а также рассмотрения в рамках межкультурной коммуникации.

О значении исследований

Несмотря на темпы развития сегмента, голосовые технологии только раскрывают свой потенциал. Голосовой помощник, который умеет поддерживать диалог и даже проявляет определенную чуткость, остается новинкой. И общение с ним все еще сложно назвать привычным. Так, согласно совместному исследованию Powerry и Neuro.net, 48% людей хотели бы до начала разговора знать, что будут общаться с ботом. И для 30% очень важна возможность в любой момент переключиться на общение с человеком.

Meticulous Research отмечают два фактора, которые несколько сдерживают рост рынка. Во-первых, до недавнего времени качественный голосовой помощник стоил очень дорого. А во-вторых, даже качественному помощнику еще многому предстоит научиться. Например, развивать навыки по считыванию эмоций или интерпретировать речь, несмотря на акцент.

Именно поэтому исследования особенностей коммуникации с виртуальным агентом представляют для сектора большую ценность. Они помогают специалистам в области ИТ и разработки искусственного интеллекта определять актуальные направления развития. А еще могут быть полезны психологам, маркетологам и социологам.

Обновлено 21.06.2021

Текст

Дмитрий Чуйко, Екатерина Майорова

IT Нейросети Внедрение инноваций