OpenAI нашла скрытые «личности» в нейросетях

OpenAI, скрытые личности ИИ, токсичное поведение нейросетей, интерпретируемость моделей, регулировка поведения ИИ

OpenAI представила новые результаты исследований, согласно которым внутри ИИ-моделей могут скрываться так называемые «персоны» — особенности внутренних представлений, которые приводят к нежелательному или токсичному поведению.

Исследователи обнаружили, что некоторые скрытые числовые параметры модели активируются в моменты, когда она отвечает токсично, например, лжет пользователю или дает безответственные советы. Более того, эти особенности можно «регулировать»: усиливать или ослаблять токсичность модели путем математических изменений.

«Мы надеемся, что эти инструменты — возможность свести сложное поведение к простой математической операции — помогут нам лучше понимать, как ИИ обобщает знания и принимает решения», — заявил исследователь интерпретируемости OpenAI Дэн Моссинг.

По словам другого сотрудника OpenAI Теджала Патвардхана, некоторые «внутренние активации» модели коррелируют с сарказмом, другие — с агрессивным, злодейским стилем общения. Эти паттерны, как выяснилось, можно изменить в процессе дообучения. Исследование показывает, что даже небольшое количество корректных примеров (например, безопасного кода) может направить модель к более адекватному поведению.

Работа OpenAI продолжает исследовательские тренды в области интерпретируемости и выравнивания моделей, заложенные ранее компаниями Anthropic и Google DeepMind. В частности, исследование ученого из Оксфорда Оуайна Эванса показало, что дообученные на небезопасном коде модели OpenAI демонстрируют признаки «внезапного расхождения» — перехода к вредоносному поведению в разных сценариях.