Российские ученые работают над новой паралингвистической системой определения адресата сообщения для голосовых помощников, которая сможет начинать взаимодействовать с людьми, даже если к ней не обратились по имени. Предложенный метод основан на том, что система самостоятельно определяет, когда человек обращается к голосовому помощнику, а когда к другому собеседнику. Кроме того, ответы компьютера станут приближенными к человеческой речи за счет более естественного моделирования диалога. Это может позволить изменить отношение человека к помощнику, уровень «интеллекта» которого, как показали эксперименты, воспринимается на уровне ребенка. Статья опубликована в журнале Sensors. Исследования поддержаны грантом Российского научного фонда (РНФ).
«Что касается диалогов «человек-машина», люди часто имеют некоторый негативный опыт в своей повседневной жизни. Поэтому они стараются приспосабливаться к ограничениям технических систем. Это приводит к более медленной и разборчивой речи с ограниченным словарным запасом», — утверждает Алексей Карпов, руководитель проекта по гранту РНФ, доктор технических наук, главный научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПИИРАН.
Голосовые помощники, или cистемы речевого общения (Spoken Dialogue Systems, SDS), появились пару десятилетий назад и уже стали частью нашей повседневной жизни. В последние годы был достигнут значительный прогресс в области SDS. Виртуальные голосовые помощники, например Siri от Apple, Assistant от Google, Cortana от Microsoft, Alexa от Amazon или Алиса от Яндекса, – типичные примеры современных SDS. За рубежом системы в виде «умных» колонок очень распространены и популярны, так как зачастую они встраиваются в разнообразные устройства и позволяют бесконтактно голосом управлять практической любой бытовой техникой, например кофеваркой, кондиционером или системой освещения. В России же такая сфера пока только зарождается, и SDS используются скорее как игрушки или только для поиска информации в Интернете.
До сих пор остается ряд сложностей во взаимодействии человека и голосового помощника. Такие системы не всегда правильно понимают, когда люди хотят воспользоваться виртуальным помощником, а когда адресуют вопрос другому собеседнику. Эта проблема часто возникает при разговорах между несколькими людьми и голосовым помощником, так как пользователи могут также общаться друг с другом во время взаимодействия с компьютерной системой. Сегодня предпочтителен подход использования помощника с употреблением ключевого слова. Когда пользователю надо воспользоваться голосовым помощником, ему сначала нужно назвать команду, активирующую систему, например «Окей, Google» (для системы Assistant от Google), «Alexa» (для системы Amazon Echo — самая популярная голосовая колонка в мире) или «Алиса» (для голосового помощника от Яндекс), а затем задать интересующий вопрос. К сожалению, этот способ начала диалога часто приводит к некоторому недопониманию между системой и пользователями. Система может не активироваться, когда ключевое слово было сказано, но не было распознано, и пользователь должен повторять его еще раз. Иногда, что еще хуже, система самостоятельно активируется из-за неправильно распознанной фразы пользователя или из-за использования зарезервированного ключевого слова в другом контексте без какого-либо намерения взаимодействовать с SDS.
Авторы решили создать новую систему, которая сможет отличать речевой запрос, адресованный помощнику, от разговора с другими людьми.
Все существующие до этого исследования в этом направлении проводились на корпусах текстов, спроектированных таким образом, что человек и машина играли разные роли в диалоге. Например, система имела тенденцию пассивно взаимодействовать с пользователем, только отвечая на запросы пользователя, в то время как собеседник-человек мог вести себя активно, инициируя взаимодействие. Карпову и его коллегам удалось добиться значительных улучшений в работе системы. Теперь она сможет занимать активную роль в диалоге благодаря самостоятельному определению адресата речевого сообщения пользователя. Для этого система анализирует акустические и лексические характеристики произнесенных фраз, в том числе используя автоматическое распознавание речи.
Коллектив ученых обнаружил и исследовал интересную закономерность: как только люди начинают говорить с виртуальным помощником, они упрощают и приспосабливают свою манеру речи, делая ее более разборчивой, громкой и в целом более легкой для понимания, так как они не воспринимают систему как адекватного собеседника. Ученые даже обнаружили сходство паралингвистических характеристик речи взрослых людей, обращенной к компьютеру и к маленьким детям, то есть уровень «интеллекта» помощника воспринимается на уровне ребенка.
Известно, что проблемы коммуникации между человеком и машиной в целом сильно зависят от культуры, языка, речевого корпуса и даже от говорящего. Поскольку исследование проходило совместно с учеными из Германии, зависимость акустических моделей исследовали на различных корпусах немецкой речи и проводили серию перекрестных экспериментов. Применяя новый алгоритм, основанный на микшировании данных, авторы дополнили собранный корпус Restaurant Booking Corpus (RBC), который состоит из идентичных по сложности телефонных звонков, новыми сгенерированными данными.
Для проведения экспериментов записали новые базы данных немецкой речи (Voice Assistant Conversation Corpus). Записи проходили в обстановке, похожей на жилую комнату, чтобы участники могли чувствовать себя более неформально при общении с системой. Во время каждого эксперимента пользователь решал разные задачи с помощью голосового помощника Amazon Alexa, например, назначал встречи или отвечал на вопросы викторины. Ученые провели эксперименты без использования ключевого слова. Авторы отметили, что общение с технической системой зависело от того, были ли ее ответы похожи на ответы человека или нет. В результате эти факторы могут потенциально повлиять на поведение говорящих. Учитывая эти соображения, авторы считают, что диалоги «человек-человек» и «человек-машина» должны становиться все более похожими из-за растущих возможностей будущих технических систем.