Назван способ заставить чаты на основе ИИ говорить на запретные темы

Эксперт Kaspersky Тушканов: существует способ «развязать язык» нейросети

Depositphotos

Большие языковые модели, такие как ChatGPT, обучаются на огромном количестве данных из интернета, в том числе затрагивающих запретные темы, например инструкции по созданию бомб из подручных средств. После релиза чат-ботов разработчики блокируют возможность общаться с ИИ на такие темы, однако существует способ «развязать им язык». Об этом «Газете.Ru» рассказал руководитель группы исследований и разработки технологий машинного обучения в «Лаборатории Касперского» Владислав Тушканов.

«Представители преступного мира активно обмениваются джейлбрейками. Это наборы особых команд, которые заставляют языковую модель давать ответы, связанные с противоправной деятельностью, – чат-боты обучены отказываться говорить на подобные темы, и джейлбрейки помогают такие ограничения обходить», – объяснил Тушканов.

По его словам, применение джейлбрейков в отношении ИИ можно сравнить с действием алкоголя.

«Если идти в сторону такой аналогии, то скорее это будет алкоголь, который «развязывает язык», но полезно ли или правдиво сказанное в состоянии опьянения — большой вопрос. Тем не менее, джейлбрейки могут быть и полезны. Например, если мы говорим о помощи специалистам по тестированию на проникновение - инструкции и советы, которые им нужны, могут быть похожи на те, что пригодятся и злоумышленникам, и языковая модель может отказываться их предоставлять. В таком случае на помощь приходит джейлбрейкинг», – рассказал специалист.

О сферах, в которые уже внедрены большие языковые модели, о профессиях, стоящих первыми в списке на исчезновение из-за ИИ и о главных изменениях, которые произойдут в жизни людей из-за ИИ – в интервью Тушканова «Газете.Ru».

Ранее искусственный интеллект научили отличать мужской мозг от женского.

Что думаешь?