Технологии распознавания голоса (речи) за последние несколько лет шагнули далеко вперед. Сегодня с их помощью успешно решается масса задач (помимо простого перевода аудио в текст). Это, например:
-
Распознавание нескольких собеседников, участвующих в диалоге.
-
Работа с записями, где диалоги ведутся более чем на одном языке.
-
Успешное распознавание речи даже при довольно высоком уровне шума (в сложной акустической обстановке).
Технология распознавания голоса используются в разных сферах (в т.ч. и в быту, в голосовых помощниках, например). Не исключение и телефония. Здесь с помощью распознавания речи решаются разные задачи. Давайте рассмотрим более детально, как работают такие технологии и разберемся с вариантами их применения (в том числе и в телефонии).
Классификация систем распознавания речи
Классифицировать такие системы можно по разным признакам. Среди них: размер словаря, назначение, используемые алгоритмы, способ распознавания речи и т.д.
Но, пожалуй, чаще всего встречается более высокоуровневая классификация и деление систем на гибридные и End-to-end. Ключевые различия между ними — в используемых подходах к решению задачи распознавания речи. Они проявляются в архитектуре, способах обучения, устойчивости к акустическим и иным помехам, а также в требовательности к вычислительным ресурсам.
Архитектура гибридных и End-to-end систем распознавания речи
Гибридные системы имеют в своем составе несколько компонентов. Это могут быть модули извлечения признаков, модели языка, акустики и т.д. Эти компоненты используются при распознавании речи совместно. А вот развиваться, обучаться или дорабатываться могут каждая по отдельности.
В End-to-end системах используется одна общая модель. Это может быть, например, нейронная сеть. Эта модель полностью выполняет все этапы распознавания речи: какого-то явного разделения на компоненты, отвечающие за конкретные этапы или действия, нет.
Особенности обучения
Гибридные системы распознавания голоса в большинстве случаев требуют размеченных данных для обучения. Причем, разметка данных определенным образом требуется для каждого компонента из их состава отдельно. Поэтому можно говорить о большей трудоемкости при их обучении.
End-to-end системы могут обучаться без использования явно размеченных данных. Благодаря этой особенности можно назвать их более универсальными и способными адаптироваться под выполнение различных задач.
Способность противостоять помехам
Принято считать, что у гибридных систем распознавания речи устойчивость к шумам и помехам выше. Это достигается как раз за счет того, что в их составе — несколько компонентов. Часть из этих компонентов могут быть специально обучены для более эффективной обработки аудио сигнала и отсечения помех.
У End-to-end систем устойчивость к помехам ниже. Но многое здесь зависит от их архитектуры и используемых методов обучения. Некоторые решения этого класса могут быть и весьма устойчивы к шумам и помехам (на уровне, сопоставимом с «оппонентами» другого класса).
Вычислительные мощности
В случае с гибридными системами распознавания голоса можно говорить о том, что каждый их компонент обучается, работает и поддерживается с помощью собственной инфраструктуры. А это значит, что для работы всего этого «конструктора» не нужны какие-то колоссальные вычислительные мощности, сосредоточенные в одном месте. С другой стороны, многокомпонентная структура требует соответствующих усилий на поддержание работы.
В случае с End-to-end можно говорить о необходимости обучать одну общую модель для выполнения всех этапов распознавания речи. А это может накладываться на требования к вычислительным ресурсам: чем больше и мощнее система, тем больше ресурсов ей нужно «здесь и сейчас».
Способы распознавания речи
Сразу стоит отметить, что в большинстве современных систем распознавания голоса (речи) используется одновременно несколько способов. Это:
-
Статистическое распознавание. В его основе — использование статистических моделей для анализа и распознавания речи. Для обучения модели используются большие объемы аудиоданных. Такой подход позволяет распознавать речь с высокой точностью, эффективно работать с разными языками, языковыми акцентами и т.д. Но здесь многое зависит от объема данных, использующихся для обучения: чем выше требования к системе, тем больший объем аудиоданных требуется.
-
Использование нейронных сетей. Их особенность заключается в способности обучаться на большом объеме данных и автоматически выявлять закономерности в речевых образцах. Благодаря этому такие модели характеризуются довольно высокой точностью и способностью обрабатывать сложные паттерны в речи. Но для их обучения необходимо большое количество вычислительных ресурсов.
-
Контекстуальное распознавание речи. Такой способ подразумевает учет контекста и смысл высказывания. Это позволяет добиться довольно высокой точности распознавания. Но обработка контекста (как и в предыдущем способе) требует использования серьезных вычислительных ресурсов.
Совместное использование рассмотренных способов позволяет нивелировать недостатки каждого из них. Конечно, такие системы более сложны в настройке и обучении. Но, практика показывает, что этот подход себя оправдывает сполна.
Как используется и работает распознавание голоса в телефонии
В зависимости от провайдера телефонии, эта технология может быть использована для реализации различных функций. Например, у одного из крупнейших российских провайдеров IP-телефонии, компании «Телфин» технология распознавания речи применяется в услуге «Речевая аналитика».
«Речевая аналитика» от «Телфин» — это сервис для анализа телефонных звонков. С его помощью происходит распознавание речи, ее преобразование в текстовый формат и оценка по различным критериям. Такой сервис может быть использован для решения широкого спектра задач в отделах маркетинга или продаж, в службе безопасности, оценки качества и т.д.
Примеры задач, которые могут быть решены с помощью речевой аналитики:
-
Анализ причин, по которым у клиента по результатам телефонного разговора возникает недовольство.
-
Контроль процессов использования менеджерами скриптов.
-
Выявление звонков, которые могут представлять потенциальную опасность.
-
Оценка соблюдения сотрудниками «на телефоне» стандартов и регламентов работы с телефонными звонками.
-
Обнаружение проблемных диалогов с клиентами и их обработка.
Еще несколько случаев, когда будет полезно распознавание речи
Помимо речевого анализа телефонных разговоров, рассматриваемая технология может использоваться в телефонии и для решения других задач. Среди них:
-
Организация работы автоматизированных голосовых меню. Довольно активно их используют, например, банки: можно дать команду роботу на соединение с оператором или получение какой-то информации.
-
Обработка сообщений с голосовой почты. Благодаря технологии распознавания речи нет необходимости прослушивать каждое их них. Система их обрабатывает в автоматическом режиме и выдает текстовые документы.
-
Транскрибирование разговоров. Принцип работы, как и в предыдущем пункте. Причем, многие поставщики услуг позволяют настраивать транскрибирование: переводить разговор в текст полностью, либо выделять какие-то тезисы и готовить по результатам разговора сводку, которую можно быстро проанализировать, чтобы понять суть.
-
Автоматическое детектирование мошеннических действий. Специально обученные модели могут распознавать типовые паттерны и признаки мошеннических звонков и своевременно сигнализировать об этом (самому абоненту, либо отправлять сигналы в какую-то систему безопасности).
-
Голосовые команды. С помощью распознавания голоса можно «научить» различные системы искать контакты, управлять вызовами и т.д.
-
Анализ настроения и эмоций для оценки качества общения с клиентами. Системы распознавания речи могут анализировать интонацию и эмоции в голосе собеседника, что помогает определить его настроение и адекватно отреагировать на него.
И это далеко не все. На данный момент некоторые решения на базе рассматриваемой технологии могут быть не очень сильно распространены. Но, учитывая то, как активно развиваются системы распознавания голоса, долго ждать их повсеместного внедрения не придется.
Например, распознавание голоса может использоваться в системах идентификации пользователей (как самостоятельный фактор или совместно с другими биометрическим факторами). Еще один вариант его использования — перевод «на лету», что значительно облегчает общение с иностранными клиентами или партнерами. Переведенные фразы могут сохраняться в виде текста или сразу озвучиваться (здесь уже речь идет о совместном использовании с технологиями синтеза речи — процесс, обратный распознаванию). Также технологии распознавания полезны при организации автоматизации действий. Например, в зависимости от наличия какого-то слова или фразы в разговоре может автоматически включаться его запись, либо отправляться уведомление о выполнении какого-то действия (например, о необходимости подключиться к разговору опытному менеджеру, если новичок «плывет»).
Мы общаемся с коллегами по цветочному бизнесу. О Телфин были только положительные отзывы. Благодаря нашему провайдеру мы забыли о проблемах со связью, все работает как часы. Мы уверены, если есть интернет — есть и связь. Был подключен виртуальный красивый номер Санкт-Петербурга, как результат, теперь одновременно компания принимает и обрабатывает неограниченное число входящих звонков. Благодаря виртуальной АТС «Телфин.Офис» удалось расширить функциональность корпоративной сети за счет новых бесплатных сервисов: голосовое приветствие и IVR, сценарии и очередь звонков, статистика и журнал вызовов, запись и хранение телефонных разговоров. С помощью переадресации звонков была налажена оперативная связь с логистами.
Видно, что технологии распознавания речи — инструменты универсальные. Безусловно, они будут активнее внедряться и использоваться с течением времени при решении разных задач. Требуется только качественное обучение моделей, на которых они базируются и наличие соответствующих вычислительных мощностей.
Дмитрий Быков
- 10 апреля 2024, 17:09 0 ↓И какой сервис вы можете порекомендовать?
Татьяна
- 23 августа 2024, 10:26 0 ↓