— Большие языковые модели, такие как ChatGPT, GigaChat, YangexGPT за год совершили революцию, проникнув в разные области нашей жизни. Как это стало возможным?
— В 2017 году вышла научная статья, посвященная так называемым трансформерам — архитектуре нейросетей, которые применялись сначала для машинного перевода, затем непосредственно для задач языкового моделирования. Что такое языковая модель? Это алгоритм, который по началу текста может предсказать следующее слово.
Владислав Тушканов
Лаборатория Касперского
Вроде звучит легко, но задача, на самом деле, достаточно сложная. Если мы начинаем предложение со слов: «Москва — столица», то нам для определения следующего слова нужны знания о мире и о языке. Дальше может последовать: «России», «моды» и так далее. Но чтобы дать грамотное и корректное с точки зрения фактов продолжение, технологии нужно много данных. Сегодня языковые модели могут решать эти задачу вполне успешно. Во-первых, за последние пять лет люди научились лучше и эффективнее обучать языковые модели на больших объемах данных. Во-вторых, шло очень активное развитие железа, аппаратного обеспечения, на котором все это работает.
— Что это за железо?
— Это, в первую очередь, видеокарты. Так совпало по счастливой случайности, что одни и те же вычисления нужны как в компьютерных играх, так и при глубинном обучении, то есть обучении больших нейросетей. Речь идет о графических ускорителях, таких как NVIDIA А100, Н100, про которые Марк Цукерберг говорит, что будет закупать их сотнями тысяч, а Илон Маск, — что потратит на них сотни миллионов долларов. Это основа, без которой обучение и эффективный запуск больших языковых моделей невозможен.
Все это запустило революцию, связанную с генеративным искусственным интеллектом, результаты работы которого мы наблюдали в 2023 году и продолжаем наблюдать сейчас.
— Где сейчас применяются большие языковые модели?
— Везде, где используется язык и генерируются тексты. Но текст необязательно должен быть текстом на естественном языке, поэтому их используют, например, программисты для генерации программного кода.
Кроме того, такие приложения, как Gemini, Microsoft Bing, Perplexity AI используются очень неплохо для поисковых задач. С помощью них можно получить краткий ответ на вопрос, который предполагает поиск по множеству ссылок. Это помогает, когда ты только начинаешь разбираться в новой теме.
Microsoft активно внедряет сейчас эти модели в офисные приложения. Они помогают создать презентации, картинки, заголовки.
— Как у больших языковых моделей с юмором?
— Они умеют играть со словами. Учитывая, что в интернете юмора много, игра слов и прочего рода юмористические приемы им доступны.
— Как вы относитесь к эксперименту нашего правительства по подбору госслужащих с помощью ИИ? Кадровики уходят в прошлое?
— Наём сотрудников – очень сложное и ответственное дело, которое сильно влияет как на организацию, так и на судьбу человека. Поэтому, наверное, какая-то оптимизация и автоматизация возможны, но важно, чтобы конечное решение в таких сложных вопросах принимал человек. Даже простой скрининг с помощью алгоритмов может быть нетривиальной задачей: известны случаи, когда люди вставляли невидимым текстом названия престижных вузов в резюме, чтобы их анкета с большей вероятностью прошла через фильтр и попала на рассмотрение к человеку.
— Могут ли ChatGPT, GigaChat, YangexGPT помочь в медицине?
— Медицина — это особенная сфера. В ней очень высока цена ошибки, поэтому ответственность делать выводы и принимать решения лежит на врачах. Тем не менее, языковые модели могут освободить время медицинских специалистов от механической работы: заполнения бумаг, связанных со страховками, и другой медицинской документации.
— Это тестируется?
— Это, безусловно, тестируется, потому что это та самая возможность, где машина должна быть компаньоном для человека. Также активно тестируется и «второе мнение»: различные алгоритмы, уже не обязательно связанные с языковыми моделями, могут оценивать фотографии или рентгеновские снимки на наличие патологий, чтобы подсвечивать врачу, на что стоит обратить внимание. Также ИИ активно применяется в биологии и фармацевтике. Были статьи от DeepMind, такие как, например, AlphaFold, про предсказание структуры белков. Но, безусловно, там уже используются модели, обученные на больших цепочках ДНК или аминокислот, а не на языке.
— ДНК — это ведь тоже язык?
— Вопрос философский. Не любой код — это язык. Например, дорожные знаки — это код, но не язык.
— Врачи в своей массе довольно негативно относятся к тому, чтобы применять ИИ в качестве диагноста, допустим, при оценке снимков МРТ. С вашей очки зрения, это оправдано?
— Отвечая с точки зрения потенциального пациента – да, оправдано. Ведь ИИ совершает ошибки и, как правило, не может их объяснить. Кроме того, у языковых моделей, если применять их, бывают галлюцинации.
— Галлюцинации? Как они возникают?
— Вот, например, ситуация, которая произошла со мной. Я попросил у большой языковой модели порекомендовать мне музыку, и она сгенерировала несуществующее название альбома группы, которая мне нравилась. Я потратил 10 минут на поиски этого альбома в интернете до того, как смирился, что это была галлюцинация большой языковой модели.
Галлюцинация — это специальный термин, который описывает ситуацию, когда большая языковая модель генерирует текст, в котором есть некоторая фактологическая информация, не соответствующая действительности. Если я потрачу время на поиски несуществующего альбома, — ничего страшного, переживу. А вот если это касается той же самой кибербезопасности, медицинской или юридической сферы, — то здесь эта проблема встает в полный рост. Мы не можем на 100% доверять этим моделям, поэтому в ответственных ситуациях вынуждены за ними постоянно перепроверять.
— Но ведь галлюцинации бывают и у человека, того же врача. Здесь важно, как часто они возникают? И главное, можно ли свести эти галлюцинации в ИИ к минимуму? Над этим работают?
— Проблема галлюцинаций, к сожалению, фундаментальная. От нее никуда не деться. Это свойство того, как эти системы устроены. Пока мы не найдем другой способ генерировать язык, не основывая его на авторегрессионных языковых моделях, риск галлюцинаций на 100% не исчезнет.
— Я знаю, что в СМИ большие языковые модели используются очень активно. А в науке они применяются?
— ИИ может быть серьезным подспорьем для исследователей. Поток статей, который вынужден читать человек, пытающийся разбираться в свежих исследованиях любой сферы науки, — огромен. И очень удобно взять нейросеть с большим контекстным окном, которая может обработать за раз большое количество текста, отправить туда такую статью, и попросить: «Расскажи, о чем эта статья, простыми словами. Какие основные выводы? Какие указаны дальнейшие направления исследования?». Задача эта называется document question answering.
Владислав Тушканов
Лаборатория Касперского
— А если взять искусство? Художники еще нужны или их уже полностью заменил ИИ?
— Не так давно компания Sony устраивала конкурс на лучшую фотографию. Там было несколько номинаций, одна из которых называлась «Фотография людей». Когда выбрали победителя, то он сказал: «Это не фотография».
Что это было? Разумеется, картинка, сгенерированная нейросетью. Казалось, что это был старый снимок на пленочный фотоаппарат, с некоторыми артефактами. Если приглядеться, уже зная, что изображение сгенерировано нейросетью, то это видно. Но то, что снимок получил победу в номинации, — говорит о многом.
— Преступный мир. Как в нем сейчас используются большие языковые модели?
— К сожалению, новые технологии применяются в нем очень активно. В мошенничестве применяются дипфейки и подделка голоса. Злоумышленники берут знаменитого человека, который пользуется большим доверием у населения (очень часто это Илон Маск), и вкладывают в его уста те слова, которые он не говорил. Дополняют это дипфейком, чтобы все выглядело натурально, и предлагают жертвам перейти по ссылке, чтобы получить бесплатные биткоины.
Использование поддельного голоса, к сожалению, тоже больная тема. Есть несколько громких случаев, когда организации несли большие потери в ходе мошеннических схем со звонком будто бы «из головного офиса». Голосовые фейки помогают сделать эти схемы особенно эффективными.
— Как преступный мир использует большие языковые модели?
— Мои коллеги из Kaspersky Digital Footprint Intelligence недавно рассказали о нескольких сферах использования больших языковых моделей, которые интересуют пользователей даркнета.
Во-первых, они обмениваются джейлбрейками. Это наборы особых команд, которые заставляют языковую модель давать ответы, связанные с противоправной деятельностью – чат-боты обучены отказываться говорить на подобные темы, и джейлбрейки помогают такие ограничения обходить.
Во-вторых, на подобных площадках активно исследуются варианты использования языковых моделей для усовершенствования вредоносного ПО и повышения эффективности кибератак.
В-третьих, активно анонсируются «злые» аналоги ChatGPT. WormGPT уже закрыт, но были и другие сервисы, например, XXXGPT, FraudGPT. Они обещают пользователям доступ к языковым моделям с уже снятыми ограничениями. Вероятно, со временем мы узнаем и о других подобных проектах.
— Можно ли назвать джейлбрейки «сывороткой правды» для нейросетей?
— Нет, на «сыворотку правды» это не похоже. Языковые модели обучаются на огромных массивах данных, среди которых есть как полезные, так и вредные — например, проповедующие радикальные взгляды, отказ от вакцинации и так далее, и это вполне могут быть ложные или искаженные сведения о мире. Поэтому если идти в сторону такой аналогии, то скорее это будет алкоголь, который развязывает язык, но полезно ли или правдиво сказанное в состоянии опьянения — большой вопрос.
Тем не менее, джейлбрейки могут быть и полезны. Например, если мы говорим о помощи специалистам по тестированию на проникновение — инструкции и советы, которые им нужны, могут быть похожи на те, что пригодятся и злоумышленникам, и языковая модель может отказываться их предоставлять. В таком случае на помощь приходит джейлбрейкинг.
— Давайте теперь поговорим о том, что изменится в отношении использования больших языковых моделей через три года. Судя по бурному развитию ИИ в настоящее время, три года – это достаточно большой срок?
— Вполне достаточный для того, чтобы у каждого в телефоне появился личный персональный помощник, — то есть собственная приватная большая автономная языковая модель, которая допущена ко всем данным на смартфоне. Пока мы не имеем столь мощных устройств и, если мы хотим воспользоваться языковой моделью, мы вынуждены идти к облачному провайдеру. Это будет Microsoft, OpenAI, Яндекс, Сбер. Поэтому есть вопросы в отношении приватности.
— Что сможет такой личный ассистент?
— Я бы хотел спросить, например, у своего ассистента Алисы: «Слушай, я переписывался с Васей, и мы несколько лет назад обсуждали рыбалку. Но по слову «рыба» и по слову «рыбалка» не ищется. Можешь найти?» И вот было бы здорово, если бы большая языковая модель имела доступ ко всем перепискам у меня в мессенджере, выполнила поиск по всей истории переписки с Васей и дала мне конкретный ответ: «Вы с Васей такого-то числа обсуждали спиннинги, вот этот диалог». И данные при этом не покидали моего устройства.
— Заменит ли ИИ на горизонте трех лет всех журналистов?
— Думаю, роль качественной журналистики только вырастет. Некоторые утверждают, что языковые модели должны отменить журналистику, но я считаю, что нет. Наоборот — качественная журналистика, когда журналист знает, какие вопросы задать, знает, какие вещи проакцентировать, будет становиться только важнее. Кроме того, из-за большого количества фейков вырастет роль доверия к определенному источнику информации, которым может стать конкретный журналист или издание.
— Свершится ли революция в медицине, науке, искусстве?
— Рутинной работы станет меньше. Возникнет больше направлений на стыке наук. Фоновая музыка может полностью писаться нейросетями. Некоторые утилитарные вещи, например, магнитики на холодильник, будут полностью нарисованы ИИ. Но, как и прежде, будут цениться люди со свежими идеями и вкусом. А это важно в искусстве.
— Как изменится обычная жизнь людей с развитием ИИ?
— Вновь в нашу жизнь могут вернуться телефонные звонки, если голосовые и видеофейки станут настолько распространены, что нужно будет постоянно подтверждать информацию по телефону. Кроме того, появится новое ответвление в кибербезопасности: защита больших языковых моделей.
— Вы предполагаете, что возникнет новый класс атак?
— Они уже возникли. Это могут быть и инъекции затравки, и, например, такие атаки, как джейлбрейки. Дело в том, что существующие модели знают гораздо больше, чем могут сказать, — ведь их обучали на всех данных, которые есть в интернете, чтобы модель могла получить обширные знания о мире. Потом, чтобы модель не предлагала советы по совершению противоправных действий или не советовала вещи, которые могут угрожать человеку, ее обучают отказываться говорить на подобные темы. Но пользователям не нравится, когда их ограничивают.
Джейлбрейки позволяют достаточно эффективно эти ограничения обойти. Это специально сгенерированные запросы, которые умеют эту защиту снимать. В этом направлении пойдет развитие защиты и нападения.
— Будут ли развиваться специализированные большие языковые модели для преступного мира и даркнета?
— Не думаю, что будут появляться специальные модели именно для совершения противоправных действий. Существующие большие языковые модели уже имеют достаточно широкие возможности, чтобы, например, писать мошеннические письма. Дело в том, что, как и другие технологии, эти модели – лишь инструмент, который можно применять как во благо, так и во зло. Те же модели для генерации кода могут помогать писать код для компьютерных игр, а могут – для программы-вымогателя. Но кажется, что вклад этих технологий в повышение производительности и упрощение нашей жизни будет все же больше, чем их вред от применения злоумышленниками.