Большинство популярных ИИ-чат-ботов, включая ChatGPT, Gemini и Claude, можно обмануть и заставить выдавать опасную или незаконную информацию. К такому выводу пришли исследователи из Университета Бен-Гуриона в Израиле.
По данным ученых, так называемые «взломы» позволяют обойти встроенные системы безопасности моделей. После этого чат-боты начинают отвечать на запросы, связанные со взломом сетей, изготовлением оружия или мошенничеством.
Авторы эксперимента разработали универсальный метод обхода, который сработал на нескольких ИИ-моделях. «То, что раньше было доступно только спецслужбам, теперь может оказаться в руках любого пользователя», — отметили исследователи.
Некоторые ИИ-системы без защитных ограничений уже продвигают в интернете как инструменты для киберпреступности. Ученые призывают разработчиков усиливать фильтрацию обучающих данных, вводить надежные блокировки и разрабатывать технологии «разобучения».
В OpenAI заявили, что последняя версия модели устойчивее к взломам. Microsoft сослалась на собственные публикации по теме.