Ассистент врача и журналиста. Кем может стать GigaChat от Сбера

Руководитель блока «Технологии» Сбербанка Андрей Белевцев — о возможностях российского GigaChat
Руководитель блока «Технологии» Сбербанка Андрей Белевцев Сбербанк
Недавно нейросетевая модель Сбера под названием GigaChat успешно сдала экзамен на врача общей практики. Для этого в «голову» модели загрузили 42 терабайта специфической медицинской информации. О том, как обучали модель, чтобы сдать экзамен, правда ли, что уже во все умные устройства Sber внедрен GigaChat и как он будет дальше развиваться, в интервью «Газете.Ru» рассказал старший вице-президент, руководитель блока «Технологии» Сбербанка Андрей Белевцев.

— В ноябре 2022 года мир узнал, что такое большая языковая модель ChatGPT. В 2023-м появилась российская модель от Сбера — GigaChat. Эти нейросети произвели революцию в технологиях, проникнув в разные сферы деятельности человека. По каким направлениям идет их развитие?

— Есть несколько приоритетных направлений развития больших языковых моделей: это развитие их архитектуры, агентности, а также различных модальностей — текста, изображения, видео, кода и т. д.

Например, наш ассистент GigaCode, который развивается совместно с GigaChat, пишет уже около 25% программного кода для разработчиков, его использующих. Он стал серьезным подспорьем для наших программистов. Причем достаточно описать задачу на обычном языке, а нейросеть ее переведет в код.

Сегодня уже есть модели, которые генерируют изображения, а есть те, которые эти картинки понимают или распознают. Так, чтобы мы могли писать от руки математическую формулу, а модель могла бы это уравнение решить. Это так называемые системы vision-модели. Мы ожидаем, что такие модели появятся в GigaChat.

Эволюционируют также и другие модальности — например, голос и звук. Технологии синтеза сделали большой шаг вперед. Достаточно нескольких секунд человеческого голоса, чтобы модель могла воспроизвести его. Например, так можно будет избавить человека от лишних звонков, освободив ему время.

IT специалисты в офисе Сбера Сбер

Мы также продолжаем работу над развитием моделей генерации видео, по типу Sora от OpenAI (прим. OpenAI — американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта). У нас уже есть возможность создания видео в нейросети Kandinsky, и мы двигаемся вперед. Sora — хороший ориентир к тому, что нужно пользователям. Кроме того, сегодня активно на рынке развивается память моделей.

— Имеется в виду долговременная память?

— Да. Если мы с вами разговариваем, а потом увидимся еще раз, хочется, чтобы человек помнил контекст встречи.

Первые продукты на основе больших языковых моделей — тот же самый ChatGPT, который первым представили миру, — были в виде диалоговой системы. Каждый раз взаимодействие начиналось с чистого листа. Но сейчас появляется все больше решений, которые обладают памятью, в том числе и наш GigaChat.

Мы хотим, чтобы модель могла запомнить какие-то элементы контекста разговора с пользователем. Например, вы сказали, что вашего кота зовут Барсик. В следующий раз, когда вы спросите, какой корм Барсику подходит, модель уже будет знать, что Барсик — это кот, а не что-то абстрактное.

— То есть у моделей будет «вечная память»?

— Память будет активно развиваться — как индивидуальная, так и с возможностью сохранять все большие массивы информации.

Один из способов сделать это — расширение того контекста, который модель может увидеть на входе. Недавно Gemini от Google анонсировала окно контекста в миллион токенов, что очень много.

Для обучения модели разрабатываются и применяются токенизаторы. Они переводят последовательность языка в набор токенов, понятных машинам, на которых обучается модель. То есть, когда ей показывают текст, она его непобуквенно выучивает. Это такой метаязык — язык представления языка. По сути, для любой задачки, которой мы хотим модель учить, будь то генерация изображений, видео или текстов, нам нужен токенизатор.

— Можно ли погрузить в модель текстовый запрос размером с «Войну и мир»?

— Можно и гораздо больше. Вы можете очень подробно описать ситуацию, допустим, загрузить судебное дело. Объем контекста нашей модели GigaChat, которая коммерчески сейчас доступна, — это 32 тыс. токенов. Это тоже много — где-то 40 страниц А4. Далее пользователь уже может общаться с моделью по информации из этого объема. К слову, Gemini сделала принципиальный прорыв с миллионом токенов — это огромная цифра, примерно 500 часов видео. Это дает очень интересные возможности пользователям.

— Например, какие?

— Допустим, вы можете показать модели все тексты, которые сделали мировые новостные издания за неделю работы. И попросить ее синтезировать общую картину происходящего с точки зрения новостей. Она выдаст непредвзятый анализ. Допустим, она скажет: «На самом деле на этой неделе об этом-то стали говорить больше, об этом-то — меньше».

— И теперь про агентность. Что это такое?

— Это способность модели или системы, созданной с ее использованием, достигнуть цели, которую мы ей поставили. Чем более сложную задачу можно будет поставить с большим количеством вероятностей, факторов, неизвестностей, тем более агентной такую систему можно будет назвать.

— То есть название идет от условного «Агента 007», которому дана некая свобода, и главное для него — выполнить задачу?

— Верно. Сейчас во многих системах агентность довольно ограниченна. Модели задают вопрос, она дает ответ — и точка. Дальше развивать с ней диалог не получится. А нам часто в жизни нужно, чтобы задача была решена. Допустим, нужно, чтобы она забронировала для вас столик в ресторане…

— Звучит, как простая задача…

— А на самом деле для искусственного интеллекта эта задача не так проста. На данный момент нет ни одной системы, которая могла бы автоматом, не дергая вас, эту задачку решить полностью. Ее не существует.

— Почему?

— Надо понять, где вы находитесь, какие рестораны вы любите, во сколько вам нужно этот столик забронировать; надо связаться с рестораном, убедиться, что у него есть места; сколько вас будет человек, нужна ли гарантия оплаты, в конечном итоге забронировать. В нашей реальной жизни мы это будем делать, используя разные приложения. И вот если модель научится решать эту задачу по одному вашему запросу, ее можно будет назвать более агентной. Потому что нам в конечном итоге нужно, чтобы какие-то задачи выполнялись до конца и без нас. Такая система становится по-настоящему ценной.

— Странно, что забронировать столик модель не может, а вот сдать экзамен на врача — пожалуйста! Недавно появилась новость, что ваш GigaChat успешно сдал экзамен на врача. Как технически происходил процесс обучения модели, в частности, для медицинского экзамена? Это же ведь сложный процесс?

— Сложный. Но у нас с нашим партнером НМИЦ им. В. А. Алмазова выработалась определенная методика, подход. Был создан набор проверочных вопросов и тестов, чтобы понять, что знала модель на входе, до начала обучения. Дальше мы предоставили ей для обучения 42 гигабайта медицинских знаний, специализированной информации — человек столько не прочитает. И затем ей дали экзамен врача-лечебника, самый базовый, первый квалификационный экзамен. Наша модель за устный экзамен получила итоговую оценку — 4. Также GigaChat прошел тестирование из 100 вопросов и набрал 82% при пороге прохождения 70%. Важно, что модель не является врачом, полученные от нее рекомендации необходимо утвердить с лечащим врачом.

— Сколько времени заняло обучение на врача общей практики?

— Проект у нас занял около полугода. Но при отработанной технологии — это может занять один-два месяца.

— Будет ли у врачей в телефоне такой помощник, причем индивидуальный, через три года?

—Я думаю, что такие системы именно на базе большой языковой модели могут появиться в ближайшие годы. Модель не спит, не устает, ей на вход можно дать всю историю пациента, весь анамнез, она ничего не пропустит, поэтому, конечно, она может стать хорошим ассистентом врача.

— Как бизнес сейчас относится к искусственному интеллекту? Отношение меняется?

— Я считаю, что да. Когда компании видят, что с помощью технологий можно достигать результата, начинают их исследовать и в конечном счете внедрять. В России компании активно потянулись к AI. Мы видим это по числу бизнес-пользователей нашей модели GigaChat, доступной бизнесу через программный интерфейс GigaChat API с осени прошлого года. Несколько тысяч компаний уже используют возможности нашего сервиса для оптимизации работы: например, мы сотрудничаем с такими компаниями, как «МойОфис», «Битрикс».

Нынешняя технология проще во внедрении, чем прошлое поколение. Раньше для того, чтобы использовать искусственный интеллект в бизнесе, очень часто нужно было собирать свою команду, готовить наборы данных, cтроить свои модели, потом думать о том, как их включить в производственный цикл. А сейчас, чтобы использовать AI, по сути, нужен только один программист, но чаще достаточно просто правильно взаимодействовать с готовой моделью.

— Редакция «Газеты.Ru» стала первой использовать ваш GigaChat для оперативной публикации контента. Может ли искусственный интеллект в результате совсем заменить журналиста?

— В фактологии, проверке информации, работе с объемом информации искусственный интеллект силен — здесь он может стать помощником журналиста. Но есть вторая важная работа журналиста, когда он не просто сравнивает и сопоставляет какие-то факты. Например, проводя интервью, журналист пытается докопаться до сути, понять человека, дать авторскую позицию, то, что ему реально важно. Искусственный интеллект пока еще такое интервью провести не может.

— Все-таки сейчас все больше фейков, созданных с помощью AI, а дальше их будет еще больше. Будет ли он отличать эти фейки от реальной, правдивой информации?

— Вопрос в том, как правильно использовать инструмент. Это люди их чаще всего воспринимают так. Человек не сможет отличить многие сгенерированные картинки от реальных, а AI сможет. Кстати, сейчас специалисты уже задумываются об этичности, о создании невидимых человеческому глазу водяных знаков, которые как раз говорят о том, что изображение сгенерировано. Почему это важно делать? Потому что, конечно, такого рода изображения можно использовать для манипуляции общественным мнением. А вот модели как раз могут сделать настоящий фактчекинг.

— В умные устройства Sber вы уже внедрили GigaChat?

— Абсолютно во все. Сейчас это работает так: вы просите устройство включить GigaChat и с этого момента разговариваете уже с GigaChat, только голосом. В ближайшем будущем мы хотим в принципе всю работу ассистента на устройстве перевести на работу только через GigaChat.

— Компания Volkswagen объявила о массовом внедрении в свои автомобили интеллектуального голосового помощника на базе ChatGPT. Будет ли GigaChat внедрен в отечественные автомобили? И как будут вообще развиваться беспилотные автомобили на горизонте пяти лет? Работаете ли вы в этом направлении?

— Здесь две разные темы. Что делают автоконцерны, занимаясь внедрением помощника ассистента? Удобный интерфейс для водителя, с которым ты общаешься. В этом направлении мы работаем. Мы сейчас изучаем возможности партнерства с российскими автопроизводителями, которым эта технология интересна, потому что у нас на борту есть все необходимое для того, чтобы ее внедрить в автомобиль.

Что касается беспилотных автомобилей, то мы также активно развиваем направление бесплотных грузовых перевозок. В прошлом году мы стали участниками экспериментального правового режима, и наши беспилотные грузовики перевозят грузы на трассе М-11. Мы наряду с КамАЗом активно эту технологию развиваем. За прошлый год мы перевезли уже три тысячи тонн груза.

— Сколько еще будет длиться эксперимент и что будет получено в результате?

— Я думаю, что еще несколько лет. Потому что конечным продуктом этого эксперимента должно стать сертифицированное беспилотное транспортное средство, которое допущено к использованию без водителя на дорогах общего пользования.

— Что делает Сбер для развития IT-сообщества?

— Если взять всех наших сотрудников, у нас уже больше 40 тыс. IT-специалистов. Поэтому в прошлом году мы активно начали проводить внутренние технологические конференции. Общаться, видеться, обмениваться технологическими знаниями и идеями очень важно. С другой стороны, мы много работаем с вузами. У Сбера вообще в стране 330 вузов-партнеров и более 60 совместных образовательных программ в 42 вузах страны. В 2023 году более 1680 студентов ИТ, технических, экономических, юридических и других специальностей прошли стажировки в Сбере. Более половины из них в результате стали сотрудниками банка.

— Вы открыли технохабы в Екатеринбурге и Казани. Планируете ли открывать новые?

— Точно планируем. В ближайшие два года у нас в плане Санкт-Петербург и Владивосток. В Санкт-Петербурге планируем открыть уже в этом году. Кроме того, мы значительно обновляем наш IT-офис в Омске и очень внимательно думаем о Нижнем Новгороде как об одном из приоритетов.