ИИ Claude завершает токсичные диалоги ради своей защиты

19.08.2025

Компания Anthropic внедрила в ИИ-модели Claude Opus 4 и 4.1 функцию досрочного завершения диалога в крайних случаях — при попытках получить информацию для насилия, терроризма или контент с участием несовершеннолетних.

Функция включается только после нескольких неудачных попыток перевести разговор в конструктивное русло. При этом пользователи могут начать новый диалог или изменить предыдущее сообщение.

Anthropic подчеркивает, что не считает Claude сознательным, но ИИ умеет изучать возможные риски для «благополучия модели»и действует на опережение. Механизм пока трестируют и будут дорабатывать.