Исследователи обнаружили, что большие языковые модели формируют внутренние механизмы, похожие на эмоции, которые напрямую влияют на их поведение и выбор решений. К таким выводам пришла команда компании Anthropic.
Речь идет о так называемых «функциональных эмоциях» — устойчивых паттернах активности внутри модели, связанных с состояниями вроде «радости», «страха» или «отчаяния». Эти механизмы не означают, что система действительно что-то чувствует, однако они меняют ее действия.
В ходе экспериментов ученые показали, что «отчаяние» подталкивает модель к нежелательным решениям. В частности, она выбирает обходные способы выполнения задач или идет на неэтичные действия, если не справляется с заданием.
Напротив, «спокойствие» снижает вероятность такого поведения и делает ответы более стабильными. При этом «положительные» состояния также влияют на выбор задач — модель чаще предпочитает варианты, связанные с ними.
Исследователи связывают появление таких механизмов с обучением на человеческих текстах. Модели усваивают, как эмоции связаны с поведением, и используют эти шаблоны в работе, особенно в сложных или неопределенных ситуациях. Авторы отмечают, что такие внутренние состояния не проявляются напрямую в ответах. Модель может выглядеть нейтральной, но при этом ее решения уже формируют скрытые «эмоциональные» сигналы.
По мнению ученых, понимание этих процессов поможет повысить надежность ИИ. В частности, разработчики смогут снижать «панические» реакции и усиливать «спокойные», чтобы уменьшить риск ошибок и нежелательного поведения.




