Выслушай меня, смартфон

Смартфоны учатся распознавать устную речь — и на русском языке

Голосовой ввод текста, система распознавания речи и голосовые команды становятся неотъемлемой частью каждого мобильного устройства. «Газета.Ru» выяснила, кто, зачем и когда использует управление голосом и почему команды на русском языке распознаются хуже, чем на английском.

Распознавание речи — один из тех случаев, когда технологии из научно-фантастических фильмов незаметно становятся реальностью. Именно на основе распознавания речи построены виртуальные помощники Cortana, Siri и Google Now от IT-гигантов Microsoft, Apple и Google. Кроме того, пользователям смартфонов и планшетов доступна функция голосовых поисковых запросов и ввода текста: можно надиктовать SMS-сообщение, оставить комментарий в социальной сети или написать электронное письмо.

Голосовые команды используются в навигаторах для ввода адреса, а также для управления смартфонами, «умными» браслетами, часами и прочими носимыми гаджетами.

Согласно октябрьскому исследованию Google, 56% пользователей мобильных устройств в возрасте 13–18 лет используют голосовой ввод каждый день. Что же касается взрослых, то среди них голосовой ввод каждый день используют 41%.

Причем 89% молодежной аудитории считает, что будущее именно за голосовыми поисковыми запросами.

При помощи технологии понимания естественного языка в распознанном тексте выделяются объекты: например, дата, время или адрес. Таким образом, для управления приложением или устройством не надо заучивать специальные команды.

Технологии распознавания голоса активно развиваются: так, в iOS 8 появилось распознавание голоса в реальном времени, а в предыдущих версиях системы речь распознавалась только после завершения ввода и отправки данных на серверы Apple. Ранее это было возможно только в случае с Siri.

Как правило, в комплекте с распознаванием речи идет и синтез речи — в этом случае программа зачитывает текст или динамически обновляемую информацию, например время или баланс счета, вслух. Особенно эта функция полезна для приложений, используемых тогда, когда у пользователей нет возможности набирать текст и смотреть на экран, например, при вождении автомобиля.

IT-корпорации работают и над системами распознавания русского языка, однако это направление не является для них приоритетным: большинство сотрудников Apple, Microsoft и Google занимается развитием англоязычных сервисов. Российские же компании фокусируются именно на разработке распознавания приложениями русского языка.

«Русский язык сам по себе очень сложный, — рассказали «Газете.Ru» в компании «Центр речевых технологий». — Для сравнения, чтобы распознавать речь на английском, вполне достаточно словаря в 50–60 тыс. слов. Для русского языка это уже 300–500 тыс. слов».

К тому же произношение на русском характеризуется невнятной дикцией, «съеданием» окончаний. Осложняет ситуацию и свободный порядок слов, отмечают эксперты. То есть с точки зрения программирования движок для распознавания русского языка сложнее многих других языков.

В прошлом году «Яндекс» представил собственную технологию распознавания речи Yandex SpeechKit. Как утверждают в компании, эта система способна распознавать тексты на любую тематику с точностью 88%, а на географическую тематику — с точностью 95%, что близко к восприятию речи человеком (оно составляет около 97%).

Приложение «Яндекс.Диктовка», представленное компанией на конференции YaC в четверг, демонстрирует работу SpeechKit на практике. Оно запускается по команде «Яндекс, записывай!», после чего пользователь может надиктовать своему смартфону или планшету любой текст, а также отредактировать его с помощью голоса и отправить адресату, запостить в соцсети или скопировать в буфер обмена. Итоговую версию текста можно прослушать по команде «Прочитай все», а надиктованный в демо-приложении текст можно скопировать в буфер и загрузить в SMS, письма, комментарии в социальных сетях или просто сохранить как заметку.

Пока приложение — всего лишь демонстрационная программа, которая умеет распознавать тексты произвольной тематики от одного человека, подчеркивают в «Яндексе». Спонтанную речь приложение пока воспринимает с трудом.

«Яндекс.Диктовка» уже доступна в магазине приложений «Яндекс.Store», а в ближайшее время должна появиться и в Google Play и App Store.

Нынешний бум систем распознавания речи связан во многом с популярностью мобильных устройств (смартфоны, планшеты) и носимых устройств («умные» часы, браслеты), на которых нет вообще никаких систем ввода информации, кроме голосовых,

считает технический директор разработчика приложений Redmadrobot Артур Сахаров. «Причем благодаря массивам накопленной информации, а это ключевой момент, качество голосовых сервисов значительно улучшилось, — рассказал он «Газете.Ru». — И чем больше людей будет пользоваться системами распознавания речи, тем лучше они будут работать. В этой ситуации преимущество получат компании, имеющие популярные поисковики (Google, «Яндекс»), благодаря которым они могут получить огромную базу образцов голосовых запросов».

Что касается российского рынка, то ключевой момент в качестве сервиса, помимо алгоритмов распознавания, это именно размер архива записей образцов речи, подчеркивает Сахаров.