Создана нейросеть для генерации фоновых звуков

ElevenLabs: ИИ-инструмент может создавать звуковой фон по текстовым подсказкам

Global Look Press

Технологический стартап ElevenLabs запустил программу на основе искусственного интеллекта (ИИ) для автоматического создания звуков окружения на основе текстовых подсказок. Об этом сообщается на официальной странице компании в социальной сети X (ранее — Twitter).

Авторы новой нейросети продемонстрировали ее возможности на примере беззвучных видеороликов, сгенерированных с помощью генеративной модели Sora фирмы OpenAI.
«Мы использовали текстовые подсказки, такие как «грохот волн», «звон металла», «чириканье птиц» и «двигатель гоночного автомобиля», для создания звука, который мы наложили на некоторые из наших любимых клипов из анонса OpenAI Sora», — отметили в ElevenLabs.

В демонстрационном видео показаны и другие примеры работы алгоритма, включая шум улицы мегаполиса, механический гул робота и лай щенков.

ElevenLabs известна как разработчик ИИ-системы по преобразованию текста в синтезированную речь и автоматического дубляжа видео с поддержкой более чем 20 языков.

Ранее компания OpenAI представила нейросеть Sora, генерирующую фотореалистичное видео по текстовому описанию.