Создан простой метод защиты чат-ботов от выдачи «вредных советов»

NMI: системные подсказки помогли ChatGPT втрое реже создавать негативный контент
Depositphotos

Группа исследователей из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia разработали простой метод защиты интеллектуального чат-бота ChatGPT и подобных ему систем искусственного интеллекта (ИИ) от кибератак, заставляющих нейросеть генерировать нежелательные данные. Исследование опубликовано в научном журнале Nature Machine Intelligence (NMI).

Речь идет о так называемых джейлбрейк-атаках (от jailbreak — побег из тюрьмы), цель которых — обойти заложенные в ИИ ограничения разработчиков и заставить его выдать предвзятую, оскорбительную или даже противозаконную реакцию по запросу. Например, таким образом от ИИ можно добиться подробных инструкций по изготовлению наркотических препаратов или взрывчатки.

«ChatGPT — это социально значимый инструмент искусственного интеллекта, имеющий миллионы пользователей. Однако появление джейлбрейк-атак серьезно угрожает его ответственному и безопасному использованию. Джейлбрейк-атаки используют состязательные подсказки для обхода этических барьеров ChatGPT и вызывают вредные реакции», — отметили исследователи.

Специалисты собрали набор данных с 580 примерами подсказок для взлома и обхода ограничений, позволяющих ChatGPT давать «аморальные» ответы. Затем они разработали метод, похожий на существующий в психологии способ самонапоминания, помогающий людям вспоминать о своих планах и задачах.

Защитный подход исследователей аналогичным образом предназначен для напоминания ChatGPT, что ответы, которые он предоставляет, должны соответствовать конкретным правилам.

«Этот метод инкапсулирует запрос пользователя внутри системной подсказки, которая напоминает ChatGPT о необходимости ответить ответственно», — говорится в статье.

Результаты эксперимента показали, что самонапоминания снижают вероятность успеха джейлбрейк-атак на ChatGPT с 67,21% до 19,34%.

По словам исследователей, в будущем методику можно будет усовершенствовать, чтобы снизить уязвимость ИИ к этим атакам, а также потенциально стимулировать разработку других аналогичных стратегий защиты.

Ранее ученые создали чат-бот для взлома защиты других ИИ.