Южнокорейские ученые из Института исследований электроники и телекоммуникаций (ETRI) разработали технологию искусственного интеллекта (ИИ) для почти моментального создания изображений. По словам создателей, модель работает в пять раз быстрее существующих аналогов. Статья опубликована на официальном сайте Научно-технического совета по национальным исследованиям и технологиям (NST).
Специалисты представили три модели на основе нейросети KOALA, а также две модели диалогового визуального языка KoLLaVA, которые могут отвечать на вопросы пользователя с помощью изображений и видеороликов.
В ETRI сумели сделать KOALA значительно компактнее по сравнению с существующими ИИ-генераторами графики с помощью так называемой дистилляции данных.
За счет этого модель может работать на сравнительно недорогих графических процессорах с восемью гигабайтами памяти. Модель создает изображение с высокой детализацией и разрешением всего за 1,6 секунды. Для сравнения, у популярной нейросети DALL-E 2 от компании OpenAI на ту же задачу уходит 12,3 секунды.
В ETRI также запустили веб-сайт, на котором пользователи могут напрямую сравнить и испытать в общей сложности девять моделей, включая две общедоступные модели со стабильной диффузией (метод ИИ-генерации изображений): BK-SDM, Karlo, DALL-E 2, DALL-E 3 и три модели KOALA.
В будущем исследовательская группа ожидает высокого спроса на корейские кросс-модальные (использующие разные типы данных) модели, которые интегрируют технологию визуального интеллекта в ИИ с открытым исходным кодом.
Ранее разработчики создали нейросеть, которая генерирует фоновые звуки для видеороликов.