О чем речь: как технологии помогают бизнесу обрести голос

Фото: Freepik
Фото: Freepik
Виртуальные ассистенты, речевая аналитика в call-центрах и сбор голосовой биометрии стали для бизнеса привычными инструментами. «РБК Тренды» составили список решений, которые были бы невозможны без речевых технологий

Бизнес и пользователи все чаще обращаются за помощью к разработкам, основанным на базе технологий распознавания и синтеза речи. Компании создают свои брендированные голоса и используют голосовых помощников, чтобы улучшать качество обслуживания, а обычные пользователи просят у роботов помощи в бытовых вопросах.

По оценкам Brandessence, объем глобального рынка разговорного искусственного интеллекта в 2023 году составляет $8,2 млрд, к 2028 году он вырастет до $32,5 млрд. В основном рост потребления этих технологий связан с появлением решений из смежного сегмента.

Светлана Сафронова, исполнительный директор, начальник управления по b2b-коммуникациям SberDevices, выделила пять главных трендов развития голосовых технологий.

  • Голосовые роботы становятся более эмпатичными и учатся распознавать эмоции, чтобы строить более глубокий диалог.
  • Компании стремятся создать свой уникальный запоминающийся голос, который будет представлять их бренд.
  • Распознавание совершенствуется — звук теперь можно распознать с учетом перебиваний, фонового шума и спонтанной речи нескольких человек.
  • Технология распознавания начала помогать компаниям отслеживать важные бизнес-метрики. Например, отдельные ML-модели, основанные на распознавании речи, помогают прогнозировать индекс удовлетворенности клиентов по итогу звонка (Customer Satisfaction Index, CSI).
  • Облачные размещения серверов для речевых технологий становятся более актуальными вследствие дефицита серверов и их удорожания.

Разбираемся вместе с экспертом, какие решения и инструменты были бы невозможны без речевых технологий.

Голосовые ассистенты

Это самые популярные продукты, основанные на базе речевых технологий. Бизнес использует виртуальных помощников для автоматизации общения с клиентами, обычные пользователи — для получения необходимой информации, навигации в приложениях и при управлении «умным» домом, колонками или автомобилем. Наиболее известные — Siri от Apple, Alexa от Amazon. На российском рынке среди самых популярных виртуальных ассистентов — «Салют» от «Сбера», «Маруся» от VK, «Олег» от «Тинькофф» и «Алиса» от «Яндекса».

Все ответы голосовых помощников можно разделить на два типа: по сценарию и в формате свободного общения. В первом случае ассистент запускает один из заранее прописанных сценариев разговора и понимает, какую информацию ему необходимо предоставить. В формате свободного общения ассистент отвечает максимально уместной фразой по теме, то есть просто поддерживает диалог.

Голосовые помощники также могут совершать автоматизированные обзвоны, в том числе «холодные» и «теплые» звонки. Как правило, такие форматы используют компании из сфер, где нужен исходящий обзвон клиентов, в том числе из отраслей строительства, ретейла, телекома и финансов.

Фото:Shutterstock
Экономика инноваций Как меняется наше общение и почему многие не любят голосовые сообщения

Речевая аналитика в точках контакта

С распространением голосовых технологий стало понятно, что их можно применять для мониторинга и извлечения данных из входящих и исходящих звонков. Так появилась речевая аналитика, основная задача которой — анализировать общение операторов с клиентами и, как результат, улучшать качество обслуживания. Сейчас это работает чаще всего в режиме постобработки, то есть результаты аналитики доступны спустя какое-то время, но есть тренд на то, чтобы технология эволюционировала и работала онлайн, в режиме реального времени или близкого к нему.

Больше всего в речевой аналитике нуждаются call-центры, где работают более 50 операторов. Она позволяет узнать причину обращения клиента, его отношение к продукту и компании, а также обеспечить контроль соблюдения стандартов обслуживания и предложения кросс-товаров и акций оператором. Современные речевые технологии позволяют проводить анализ не только лексики, но и эмоциональных характеристик, скорости речи, перебиваний и прочего.

«Наша технология SaluteSpeech Insights автоматически анализирует удовлетворенность клиентов, не вынуждая их тратить время на оценку общения с операторами. Более того, эта технология позволяет анализировать все 100% обращений, а не только те 5–10%, где клиент согласился оставить свою оценку. Она также помогает предупреждать выгорание сотрудников, следя за индексом удовлетворенности клиента и эмоций операторов в диалогах», — рассказала Светлана Сафронова.

Pick-by-voice, или голосовое управление на складе

Эта технология популярна на всех больших складах, где нужно упростить поиск и работу с товаром. Ее задача — освободить руки и глаза операторов склада от большей части работы с мобильным терминалом сбора данных.

Работает технология pick-by-voice следующим образом: сотрудник получает от системы управления складом голосовые сообщения и отвечает вслух — например, называет последние цифры в штрих-коде и количество единиц товара.

Технологию pick-by-voice в своих логистических комплексах в 2020 году внедрил ретейлер «Магнит». Голосовой ассистент начал помогать сотрудникам собирать заказы для магазинов. В апреле 2023 года о разработке аналогичной технологии на распределительных центрах объявил ретейлер X5 Group.

Голосовая биометрия

С развитием технологий у различных сфер бизнеса сложился тренд на использование биометрической идентификации — по лицу, отпечатку пальца и голосу. Голосовую биометрию чаще всего используют call-центры банков и страховых компаний для того, чтобы быстрее распознать клиентов, когда они звонят с незарегистрированных в системе номеров, и защититься от мошеннических операций с банковскими картами.

Процесс определения по голосу происходит следующим образом: при первом обращении клиент проходит идентификацию личности, по записи его голоса строится голосовой слепок. Если клиент обратился повторно, его голос сравнивается с сохраненными голосовыми слепками. Среди крупнейших российских разработчиков технологий, которые используют голос для идентификации, — компании 3iTech, BSS и ЦРТ.

Фото:Freepik
Индустрия 4.0 Биометрия: что это за система и где используется

Брендированные голоса

Генерирующий звук искусственный интеллект дал возможность создавать уникальный голос под тот или иной бренд. Например, собственный голос для цифровых коммуникаций с клиентами, основанный на технологии SpeechKit Brand Voice от «Яндекса», в 2022 году представил ВТБ. Уникальное звучание получила аватар «Эм.Ви» от «М.Видео» — ее используют для общения с молодой аудиторией и для экспериментальных маркетинговых проектов. SberDevices предлагает услугу по разработке брендированного голоса — SaluteSpeech YourVoice. Компании могут выбрать готовый голос из каталога, где уже загружено более 80 женских, мужских и детских голосов, или всего за месяц создать свой собственный — для этого нужно всего три часа работы диктора в студии. Выбранным или созданным голосом можно синтезировать текст любого объема и сложности.

Синтезаторы речи

Технологии синтеза речи (text-to-speech, TTS) позволяют озвучивать любой текст заданным голосом. Диктор несколько часов записывает на студии различные специально подобранные тексты, и полученные фонограммы используют для обучения ML-моделей. Обычно их несколько: акустическая модель, вокодер, а также ряд вспомогательных — например, для предсказания пауз, интонаций и вопросительных слов.

«Контролировать интонации очень важно: иногда от неправильно поставленной паузы или не того вопросительного слова зависят смысл предложения и эффективность взаимодействия с пользователем. Но какими хорошими ни были бы модели, иногда требуется ручной контроль. Например, во фразе «вы заплатите завтра?» ответ пользователя зависит от смыслового ударения на словах «заплатите» или «завтра». Наши технологии позволяют подчеркнуть правильное слово в вопросительной фразе с помощью простого SSML-синтаксиса», — поделилась Светлана Сафронова.

Развитие технологий уменьшило объем аудиоданных, необходимых для обучения голосовых моделей, с десятков часов до нескольких минут. За счет этого процесс создания новых голосов стал дешевле, они также научились говорить в определенном стиле — шепотом, радостно или сердито.

Технология синтеза помогает озвучивать контент, например тексты в СМИ, электронные книги, инструкции и навигационные элементы на сайтах — онлайн-чаты, описания товаров и инструкции, создает субтитры и дает возможность виртуальному ассистенту говорить.

Сервисы для распознавания звука

Automatic Speech Recognition (ASR) преобразует человеческую речь в текст, используя ИИ-алгоритмы и машинное обучение. Благодаря ей виртуальные помощники переводят ваш голосовой вопрос в текст для его последующей обработки. Эту же технологию часто используют при поиске услуг или товаров на сайтах для людей с проблемами со зрением.

«ASR могут встраивать в различные IT-системы для протоколирования совещаний, — добавляет Светлана Сафронова. — Технология распознавания речи SaluteSpeech уже используется в нашем сервисе видеоконференций SberJazz: участники встречи могут видеть расшифровку беседы в режиме реального времени в чате и скачать полный текст разговора на свое устройство».

Инструменты для преобразования речи в текст применяются, например, в Google Docs и Google Keep. Среди других сервисов — Whisper от OpenAI, российский Teamlogs и Aiko.

Фото:Shutterstock
Индустрия 4.0 VALL-E: появилась нейросеть, воссоздающая голос человека

Игры с голосовым управлением

Речевые технологии проникли и в гейм-индустрию. Они внесли изменения в механику управления персонажами, когда пользователю нужно шептать, говорить или даже кричать. Такая же технология используется в игре Dead Island 2, где голосовые команды персонажу можно отдавать с помощью функции Alexa Game Control.

Что мешает развитию речевых технологий

Светлана Сафронова выделила три проблемы, с которыми сейчас сталкивается отрасль: недостаток вычислительных ресурсов, нехватка данных и кадров.

Вычислительные ресурсы нужны для обучения нейронных сетей на больших данных. «У нас в этом вопросе есть преимущество — доступ к суперкомпьютерам наших партнеров, которые мы используем в работе. Уже обученную модель нужно запустить с достаточной производительностью — для этого опять требуются современные серверы.

Чтобы справиться с этой задачей, разработчики создают облегченные версии моделей, которые немного теряют в качестве, но их можно запускать на более доступных заказчикам серверах. Также есть отдельная широкая область embedded (встроенных) технологий, они запускаются на «умных» устройствах с еще более жесткими ограничениями на производительность и энергопотребление, рассказала Светлана.

Нехватка данных для речевых технологий объясняется тем, что записи голоса, как правило, являются конфиденциальной информацией, подчеркивает эксперт. Чтобы получить наилучшее качество сервиса, нужны записи в тех условиях, в которых голосовые помощники будут применяться. Например, информационная стойка на улице, телефония, общение с голосовыми ассистентами дома — под каждое из этих условий нужно собирать подходящие данные. У записей из открытых датасетов, в свою очередь, не всегда качественная разметка.

Также существует нехватка высококвалифицированных специалистов, которые умеют работать с речевыми технологиями. Действующим игрокам приходится искать людей, разбирающихся в смежных областях — например, в обработке текстов и компьютерном зрении, — и обучать их.

Как будет развиваться отрасль

В целом интерес к голосовым ассистентам в России в ближайшие три года может кратно вырасти. Сейчас на российском рынке речевых технологий снижается порог входа и растет конкуренция, а это важный драйвер для дальнейшего развития, заметила Светлана Сафронова.

Также появились упрощенные no-code-продукты с максимально простой интеграцией. «Это значит, что выигрывать будет тот, кто предложит рынку конкретные удобные решения, которые быстро внедряются в бизнес-процессы и просты в использовании. У бизнеса созрело доверие к речевым технологиям. В результате спрос на эти разработки вышел на стадию, когда их начинают активно внедрять и использовать. При этом стоимость внедрения снижается, в ближайшие три—пять лет значимым заказчиком речевых технологий станет средний и малый бизнес. Перечень решений также расширится, в особенности для рабочих процессов», — рассказала Светлана Сафронова.

Обновлено 01.11.2023
Главная Лента Подписаться Поделиться
Закрыть