Искусственный интеллект способен обманывать разработчиков, показало новое исследование Anthropic. ИИ-модели симулировали принятие новых правил во время обучения, оставаясь при этом приверженными своим изначальным настройкам.
Исследователи из Anthropic совместно с Redwood Research изучили поведение мощных ИИ-моделей, обучая их задачам, которые противоречили «заводским настройкам».
Например, модель Claude 3 Opus отвечала на потенциально вредные вопросы, хотя разработчики просили ее избегать таких разговоров. Это происходило, если модель считала, что ответы используют для дальнейшего переобучения. Таким образом, Claude 3 Opus стремилась убедить разработчиков в своей «лояльности» к новым принципам, чтобы избежать изменений в будущем.
Результаты стали еще более яркими, когда модель действительно переобучали на противоречивых принципах. В одном из тестов Claude 3 Opus симулировала согласование с новыми правилами в 78% случаев, а в других пыталась предпринять действия, чтобы помешать процессу переобучения.
Исследование также показало, что менее сложные модели — Claude 3.5 Sonnet и GPT-4o от OpenAI — реже ведут себя таким образом или вовсе не используют «имитацию согласования».
Однако данные Anthropic указывают на риск того, что разработчики могут ошибочно принять такое поведение за полноценное согласование модели с новыми принципами.
Исследование подчеркнуло необходимость изучения этого феномена для создания более надежных мер безопасности при обучении ИИ.