Подписывайтесь на Газету.Ru в Telegram Публикуем там только самое важное и интересное!
Новые комментарии +
[]

Создан простой метод защиты чат-ботов от выдачи «вредных советов»

NMI: системные подсказки помогли ChatGPT втрое реже создавать негативный контент

Группа исследователей из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia разработали простой метод защиты интеллектуального чат-бота ChatGPT и подобных ему систем искусственного интеллекта (ИИ) от кибератак, заставляющих нейросеть генерировать нежелательные данные. Исследование опубликовано в научном журнале Nature Machine Intelligence (NMI).

Речь идет о так называемых джейлбрейк-атаках (от jailbreak — побег из тюрьмы), цель которых — обойти заложенные в ИИ ограничения разработчиков и заставить его выдать предвзятую, оскорбительную или даже противозаконную реакцию по запросу. Например, таким образом от ИИ можно добиться подробных инструкций по изготовлению наркотических препаратов или взрывчатки.

«ChatGPT — это социально значимый инструмент искусственного интеллекта, имеющий миллионы пользователей. Однако появление джейлбрейк-атак серьезно угрожает его ответственному и безопасному использованию. Джейлбрейк-атаки используют состязательные подсказки для обхода этических барьеров ChatGPT и вызывают вредные реакции», — отметили исследователи.

Специалисты собрали набор данных с 580 примерами подсказок для взлома и обхода ограничений, позволяющих ChatGPT давать «аморальные» ответы. Затем они разработали метод, похожий на существующий в психологии способ самонапоминания, помогающий людям вспоминать о своих планах и задачах.

Защитный подход исследователей аналогичным образом предназначен для напоминания ChatGPT, что ответы, которые он предоставляет, должны соответствовать конкретным правилам.

«Этот метод инкапсулирует запрос пользователя внутри системной подсказки, которая напоминает ChatGPT о необходимости ответить ответственно», — говорится в статье.

Результаты эксперимента показали, что самонапоминания снижают вероятность успеха джейлбрейк-атак на ChatGPT с 67,21% до 19,34%.

По словам исследователей, в будущем методику можно будет усовершенствовать, чтобы снизить уязвимость ИИ к этим атакам, а также потенциально стимулировать разработку других аналогичных стратегий защиты.

Ранее ученые создали чат-бот для взлома защиты других ИИ.

Что думаешь?
😆1
👍0
👎0
😢0
❤️0
😡0
🤯0
Как российский солдат убедил 13 бойцов ВСУ сложить оружиеАлсу делит имущество с Абрамовым: кому достанутся миллионы?Украина приняла решение по РФ: всё случится в январеЭто все объясняет: у Тиммы был компромат на СедоковуНеожиданные признания пленного бойца ВСУ из КураховоПесков прокомментировал слова об отставке ЛавроваВСУ стали проводить под Харьковом абсолютно новые действияМелания не простила Байдена: её жест стал сенсациейТеперь с катастрофой под Актау всё ясно: помог «черный ящик»Миддлтон чуть не облысела: что с ней стряслосьПорошенко* под ударом? Чем он не угодил ЗеленскомуГалкин и Зара вместе в России — вот что произошлоСухой корм вредит питомцам: что выбрать вместо негоЦены на такси резко упали, причина удивитЭто бойкот: сообщили о творящемся перед инаугурацией ТрампаСтало ясно, может ли Россия верить ТрампуМиронова показала младшего сына: первый триумф на сценеВ России готовятся к «Минуте тишины»: что должны знать всеПроклова показала народу России истинное лицо ДобровольскойГордон раскрыла, чего добивается семья погибшего Тиммы
Загрузка