Технологический стартап ElevenLabs запустил программу на основе искусственного интеллекта (ИИ) для автоматического создания звуков окружения на основе текстовых подсказок. Об этом сообщается на официальной странице компании в социальной сети X (ранее — Twitter).
Авторы новой нейросети продемонстрировали ее возможности на примере беззвучных видеороликов, сгенерированных с помощью генеративной модели Sora фирмы OpenAI.
«Мы использовали текстовые подсказки, такие как «грохот волн», «звон металла», «чириканье птиц» и «двигатель гоночного автомобиля», для создания звука, который мы наложили на некоторые из наших любимых клипов из анонса OpenAI Sora», — отметили в ElevenLabs.
В демонстрационном видео показаны и другие примеры работы алгоритма, включая шум улицы мегаполиса, механический гул робота и лай щенков.
ElevenLabs известна как разработчик ИИ-системы по преобразованию текста в синтезированную речь и автоматического дубляжа видео с поддержкой более чем 20 языков.
Ранее компания OpenAI представила нейросеть Sora, генерирующую фотореалистичное видео по текстовому описанию.