Microsoft создала нейросеть для подделки голоса любого человека

Нейросеть VALL-E от Microsoft может подделать любой голос на основе трехсекундного образца

Depositphotos

Компания Microsoft создала нейросеть VALL-E для преобразования текста в речь, которая может имитировать голос любого человека на основе образца продолжительностью всего три секунды. Об этом сообщает издание ArsTechnica

Полученный образец VALL-E разбивает на мельчайшие фрагменты и сравнивает их с уже имеющейся базой данных. Зная, как в разных ситуациях звучат голоса других людей, нейросеть «предполагает», как в тех же ситуациях будет звучать «донор». Таким образом у VALL-E получается очень правдоподобно имитировать голос носителя образца с естественными интонациями.

При создании VALL-E использовалась технология сжатия аудиосигнала EnCodec и библиотека записей голосов более 7 тыс. человек с общим хронометражем около 60 тыс. часов Libri-light. Оба продукта принадлежат корпорации Meta (признана в России экстремистской и запрещена).

В Microsoft считают, что новая нейросеть будет полезна при создании аудиоконтента на основе текста. В частности, VALL-E может быть использована совместно с генератором текстов GPT-3 для создания полностью оригинального контента.

Ранее «Газета.Ru» писала о том, что ученые из Новосибирска создали нейросеть для мониторинга состояния лошадей.