Разработки ученых Сбера и SberDevices позволят создавать новые архитектурные решения в процессе обучения генеративных моделей искусственного интеллекта и снижать требуемые для него вычислительные затраты. Об этом на состоявшейся на Мальте международной конференции в области компьютерной лингвистики EACL 2024 рассказали представители Сбера.
Исследователи Сбера и SberDevices выступили с докладами о двух работах по искусственному интеллекту.
Так, доклад руководителя научной группы FusionBrain — партнера Сбера — Института AIRI — Андрея Кузнецова и научного сотрудника группы Антона Разжигаева был посвящен исследованию свойств трансформерных архитектур моделей.
Исследователи изучили, как меняются важные свойства эмбеддингов (числовых представлений данных) двух типов архитектур больших языковых моделей, которые, в свою очередь, часто используются в задачах обработки естественного языка.
Полученные результаты на следующем этапе исследований помогут дистиллировать языковые модели, то есть уменьшать их размеры с минимальной потерей качества (с контролем изменения ошибки при дистилляции). Это необходимо для создания новых архитектурных решений в процессе обучения моделей и снижения требуемых для него вычислительных затрат.
Соавтором работы выступил управляющий директор по исследованию данных Сбербанка Денис Димитров.
Руководитель команды AGI NLP в R&D SberDevices Алена Феногенова и NLP ML-инженер Сбербанка Марка Баушенко представили свое исследование о генеративных подходах к исправлению орфографии.
Работая над проектом, команда создала методологию коррекции орфографии, выпустила открытую библиотеку SAGE, а также датасеты и семейство генеративных моделей, обученных для задачи исправления орфографии.
Спикеры сообщили, что лучшая модель опережает по качеству открытые решения (HunSpell, JamSpell) и модели OpenAI (gpt-3.5-turbo-0301, gpt-4-0314, text-davinci-003).