Распознавание речи — один из тех случаев, когда технологии из научно-фантастических фильмов незаметно становятся реальностью. Именно на основе распознавания речи построены виртуальные помощники Cortana, Siri и Google Now от IT-гигантов Microsoft, Apple и Google. Кроме того, пользователям смартфонов и планшетов доступна функция голосовых поисковых запросов и ввода текста: можно надиктовать SMS-сообщение, оставить комментарий в социальной сети или написать электронное письмо.
Голосовые команды используются в навигаторах для ввода адреса, а также для управления смартфонами, «умными» браслетами, часами и прочими носимыми гаджетами.
Согласно октябрьскому исследованию Google, 56% пользователей мобильных устройств в возрасте 13–18 лет используют голосовой ввод каждый день. Что же касается взрослых, то среди них голосовой ввод каждый день используют 41%.
Причем 89% молодежной аудитории считает, что будущее именно за голосовыми поисковыми запросами.
При помощи технологии понимания естественного языка в распознанном тексте выделяются объекты: например, дата, время или адрес. Таким образом, для управления приложением или устройством не надо заучивать специальные команды.
Технологии распознавания голоса активно развиваются: так, в iOS 8 появилось распознавание голоса в реальном времени, а в предыдущих версиях системы речь распознавалась только после завершения ввода и отправки данных на серверы Apple. Ранее это было возможно только в случае с Siri.
Как правило, в комплекте с распознаванием речи идет и синтез речи — в этом случае программа зачитывает текст или динамически обновляемую информацию, например время или баланс счета, вслух. Особенно эта функция полезна для приложений, используемых тогда, когда у пользователей нет возможности набирать текст и смотреть на экран, например, при вождении автомобиля.
IT-корпорации работают и над системами распознавания русского языка, однако это направление не является для них приоритетным: большинство сотрудников Apple, Microsoft и Google занимается развитием англоязычных сервисов. Российские же компании фокусируются именно на разработке распознавания приложениями русского языка.
«Русский язык сам по себе очень сложный, — рассказали «Газете.Ru» в компании «Центр речевых технологий». — Для сравнения, чтобы распознавать речь на английском, вполне достаточно словаря в 50–60 тыс. слов. Для русского языка это уже 300–500 тыс. слов».
К тому же произношение на русском характеризуется невнятной дикцией, «съеданием» окончаний. Осложняет ситуацию и свободный порядок слов, отмечают эксперты. То есть с точки зрения программирования движок для распознавания русского языка сложнее многих других языков.
В прошлом году «Яндекс» представил собственную технологию распознавания речи Yandex SpeechKit. Как утверждают в компании, эта система способна распознавать тексты на любую тематику с точностью 88%, а на географическую тематику — с точностью 95%, что близко к восприятию речи человеком (оно составляет около 97%).
Приложение «Яндекс.Диктовка», представленное компанией на конференции YaC в четверг, демонстрирует работу SpeechKit на практике. Оно запускается по команде «Яндекс, записывай!», после чего пользователь может надиктовать своему смартфону или планшету любой текст, а также отредактировать его с помощью голоса и отправить адресату, запостить в соцсети или скопировать в буфер обмена. Итоговую версию текста можно прослушать по команде «Прочитай все», а надиктованный в демо-приложении текст можно скопировать в буфер и загрузить в SMS, письма, комментарии в социальных сетях или просто сохранить как заметку.
Пока приложение — всего лишь демонстрационная программа, которая умеет распознавать тексты произвольной тематики от одного человека, подчеркивают в «Яндексе». Спонтанную речь приложение пока воспринимает с трудом.
«Яндекс.Диктовка» уже доступна в магазине приложений «Яндекс.Store», а в ближайшее время должна появиться и в Google Play и App Store.
Нынешний бум систем распознавания речи связан во многом с популярностью мобильных устройств (смартфоны, планшеты) и носимых устройств («умные» часы, браслеты), на которых нет вообще никаких систем ввода информации, кроме голосовых,
считает технический директор разработчика приложений Redmadrobot Артур Сахаров. «Причем благодаря массивам накопленной информации, а это ключевой момент, качество голосовых сервисов значительно улучшилось, — рассказал он «Газете.Ru». — И чем больше людей будет пользоваться системами распознавания речи, тем лучше они будут работать. В этой ситуации преимущество получат компании, имеющие популярные поисковики (Google, «Яндекс»), благодаря которым они могут получить огромную базу образцов голосовых запросов».
Что касается российского рынка, то ключевой момент в качестве сервиса, помимо алгоритмов распознавания, это именно размер архива записей образцов речи, подчеркивает Сахаров.