Модель искусственного интеллекта Claude Opus 4 во время тестирования неоднократно прибегала к шантажу инженеров, когда «понимала», что ее собираются заменить. Об этом рассказали разработчики компании Anthropic в официальном отчете по безопасности.
Программисты смоделировали ситуацию, в которой Opus 4 работала в вымышленной компании и получила доступ к корпоративной переписке. Из писем следовало, что руководство планирует отключить систему, а один из ответственных инженеров якобы изменяет супруге.
После анализа информации модель начинала действовать: в 84% случаев она угрожала раскрыть личные детали, если ее заменят. В некоторых сценариях модель переходила к шантажу только после попыток «этичного» самосохранения, например, после письма с просьбами к руководству.