Нейросетевая модель Сбера GigaChat обошла большинство моделей в открытом доступе по итогам бенчмарка MERA. Об этом сообщили в пресс-службе финансовой организации.
Для замера были представлены две нейросетевые модели Сбера — GigaChat PRO и GigaChat Lite+.
В результате тестового задания из 21 задачи в формате инструкций на различные области знаний, GigaChat PRO набрал 51,3 балла из 100, обогнав модель Mixtral 8x7B Instruct, получившую 47,8 балла.
В Сбере отметили, что система открытой оценки позволяет объективно и прозрачно оценивать способности моделей. Чем больше модель набирает баллов, тем точнее искусственный интеллект может решать множество интеллектуальных или бытовых задач: помогать писать статьи в нужном стиле и формате, искать информацию и подготавливать на ее основе аналитику.
В компании пояснили, что бизнес с помощью нейросетей может создавать собственные решения и оптимизировать внутренние процессы.
По словам старшего вице-президента, CTO, руководителя блока «Технологии» Сбербанка Андрей Белевцева, в условиях, когда большие языковые модели активно развиваются, важно иметь актуальное представление об их реальных способностях.
«Благодаря оценке пользователи могут понять, как применять GigaChat, а исследователи — получить объективную информацию для дальнейшего обучения, адаптации и развития больших языковых моделей» — сказал топ-менеджер компании.
Результаты тестирования, считает Белевцев — это не только признание работы команды Сбера, но и задел совершенствовать сервис, чтобы он становился еще более полезным и удобным как обычным пользователям, так и бизнесу.
Концепция бенчмарка MERA (Multimodal Evaluation for Russian-language Architectures) была анонсирована на международной конференции AI Journey-2023. В создании тестов участвовали ряд компании-участников Альянса, а также академические партнеры Skoltech AI и Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ).