Американская технологическая компания Amazon разработала модель искусственного интеллекта (ИИ) для преобразования текста в синтезированную речь. По словам создателей, нейросеть стала крупнейшей из когда-либо созданных систем такого типа. Результаты исследования размещены на портале научных публикаций arXiv.
Модель под названием Big Adaptive Streamable TTS with Emergent options (BASE TTS) имеет 980 млн параметров и была обучена с использованием 100 тыс. часов образцов записанной речи преимущественно на английском языке.
Команда также предоставила примеры произношения слов и фраз на других языках, чтобы модель могла правильно проговаривать «adios, amigo» и другие известные выражения.
Разработчики протестировала BASE TTS на небольших наборах данных. Оказалось, что ИИ способен использовать сложные существительные, выражать эмоции и применять пунктуацию, а также задавать вопросы с акцентированием на правильных словах.
В Amazon планируют использовать BASE TTS в образовательных целях в качестве обучающего приложения.
Ранее компания Apple разработала ИИ-инструмент для создания анимации.