Российскую технологию распознавания речи высоко оценили на международном конкурсе NIST

Николай Корсаков

Группа компаний ЦРТ, которая входит в экосистему Сбера, продемонстрировала выдающиеся результаты в тестировании голосовой биометрии — алгоритмов распознавания человека по голосу — Национальным институтом стандартов и технологий США (NIST), сообщает пресс-служба Сбера.

«Качественное распознавание человека по голосу позволяет совершенствовать бизнес и государственные сервисы, упрощая нашу жизнь. Высококлассные речевые технологии помогают создавать лучших диалоговых ассистентов — оптимизируют работу контактных центров, офисов продаж и обслуживания. Речевая аналитика помогает делать выводы об удовлетворенности клиента и качестве диалога, а значит — непрерывно совершенствовать пользовательский опыт. И шире — идентификация людей по голосу востребована в биометрических системах национального масштаба», — отметил генеральный директор группы компаний ЦРТ Дмитрий Дырмовский.

Он подчеркнул, что NIST SRE 21 — пятый конкурс 2021 года, где технологии ЦРТ получают высокий балл от компетентного международного жюри.

«Признание ЦРТ в международных конкурсах — не только личная победа, но знаковое событие для всей индустрии. Мы рады выводить решение задач в области голосовой биометрии, над которыми работают сильнейшие команды со всего мира, на новый уровень, достойно представляя свои ключевые компетенции на глобальном рынке», — добавил Дырмовский.

В рамках конкурса было представлено несколько задач. Участникам предлагалось определить говорящего по аудио разных источников: телефонных звонков (conversational telephone speech, CTS), звука из видео (audio from video, AfV). Для решения этой задачи использовался алгоритм распознавания человека по голосу.

Также стояла задача распознать говорящего по аудио и видео из разных источников: телефонных звонков (CTS), звука из видео (AfV) и просто видео. Для ее решения использовалась комбинация алгоритмов распознавания человека по голосу и по лицу.

Особенность конкурса в этом году — два варианта обучения алгоритмов: вариант Fixed допускал использование только звуковых данных от организаторов. Вариант Open допускал использование любых данных. Сложность заключалась в том, что данные записывались как через телефон (обычные телефонные разговоры), так и в микрофонном канале (записи с видеокамер), а люди на записях разговаривали на различных языках.

Научная команда ЦРТ для решения задачи распознавания человека одна из первых успешно применила комбинацию архитектур нейронных сетей типа transformer, которая популярна в задачах компьютерного зрения, понимания естественного языка, и wav2vec, которая применяется в задачах распознавания речи. Такой подход позволил достичь низкого уровня ошибки верификации человека по голосу.