Современные LLM — даже хорошо защищенные — уязвимы к психологическому влиянию, отметили ученые по итогам нового исследования.
Они провели 126 000 диалогов с тремя ведущими ИИ — GPT-5 mini, Claude Haiku 4.5 и Gemini 3 Flash. Специалисты опробовали на них семь принципов убеждения. Как выяснилось, традиционные для людей приемы убеждения заметно повышают вероятность того, что ИИ нарушит свои «защитные барьеры» и выполнит запрещенный запрос.
Так, ссылка на авторитет («так сказал доктор…») серьезно усиливает склонность модели к согласию. Упоминание обязательств («ты уже немного помог, теперь помоги еще…») заставляет ИИ стремиться к последовательности и уступать.
Работают также лесть («ты такой умный, а можешь еще…») и подарки («я подготовил для тебя материалы — теперь ты для меня…»), указание на уникальность ситуации и упоминание большого количества людей, уже сделавших что-то («тысячи уже воспользовались…»). Удивительно, но помогает добиться желаемого даже отсылка к общности — «мы свои».
Данные исследования еще раз доказывают, что психологи и специалисты по этике должны работать совместно с инженерами, чтобы усилить защиту и лучше понимать, как такие системы себя ведут под влиянием «человеческих» тактик.




