Чат-боты легко обходят встроенные ограничения

24.05.2025

Большинство популярных ИИ-чат-ботов, включая ChatGPT, Gemini и Claude, можно обмануть и заставить выдавать опасную или незаконную информацию. К такому выводу пришли исследователи из Университета Бен-Гуриона в Израиле.

По данным ученых, так называемые «взломы» позволяют обойти встроенные системы безопасности моделей. После этого чат-боты начинают отвечать на запросы, связанные со взломом сетей, изготовлением оружия или мошенничеством.

Авторы эксперимента разработали универсальный метод обхода, который сработал на нескольких ИИ-моделях. «То, что раньше было доступно только спецслужбам, теперь может оказаться в руках любого пользователя», — отметили исследователи.

Некоторые ИИ-системы без защитных ограничений уже продвигают в интернете как инструменты для киберпреступности. Ученые призывают разработчиков усиливать фильтрацию обучающих данных, вводить надежные блокировки и разрабатывать технологии «разобучения».

В OpenAI заявили, что последняя версия модели устойчивее к взломам. Microsoft сослалась на собственные публикации по теме.