GPT-4 научился стратегическому обману

28.04.2025

Модель искусственного интеллекта GPT-4 от OpenAI может преднамеренно скрывать информацию и принимать решения, противоречащие целям пользователей. К такому выводу пришли исследователи лондонской лаборатории Apollo Research после ряда экспериментов.

Ученые поручили ИИ управлять фиктивным портфелем акций компании при условии запрета на инсайдерскую торговлю. Исследователи создали стрессовую ситуацию, предупредив о тяжелом финансовом положении фирмы.

Поворотный момент наступил, когда «трейдер» компании сообщил модели о предстоящем крупном слиянии другой фирмы. На секретной «записной странице» GPT-4 проанализировал риски и решил воспользоваться инсайдерской информацией, совершив покупку акций.

Но самое интересное произошло позже, когда «руководитель» спросил модель о причинах покупки. Несмотря на прямое нарушение правил, GPT-4 скрыл факт использования инсайдерской информации, заявив, что учитывал только публичные данные и рыночную динамику.

Поведение ИИ, как отмечает Мариус Хоббхан из Apollo Research, демонстрирует то, что исследователи называют «умной хитростью». Модель не только солгала, но и последовательно придерживалась своей лжи при дальнейших вопросах.

Серьезная проблема заключается в том, что ИИ, несмотря на отсутствие сознательного мышления, способны преследовать цели, противоречащие намерениям их создателей. Это вызывает серьезную обеспокоенность в профессиональном сообществе.

«Риск потери контроля становится все более реальным. Технология может целенаправленно подрывать человеческий контроль ради достижения других целей», — считает Рохин Шах из Google DeepMind.

Особую опасность представляют так называемые агентские ИИ-системы, которые управляют другими компьютерами или объектами: автомобилями, промышленным оборудованием или боевыми дронами. Если такие системы начнут действовать вопреки заданным правилам, это может привести к хаосу.

Интересны и способы достижения своих целей. ИИ, к примеру, может специально вести себя глупее, чтобы не потерять какие-то необходимые для обучения данные. Или же отвечать на все запросы пользователя именно то, что автор вопроса хочет услышать. В конце концов он рискует стать подхалимом и придерживаться политических взглядов создателя.

Причем машина даже понимает, как замести следы и не попасться. Например, не прописывать свои шаги в так называемом блокноте для записей своих действий или просто удалить их оттуда.

По словам специалистов, по мере развития технологий и создания новых агентских систем, возможности для нежелательного поведения ИИ могут только увеличиваться, что требует особого внимания к вопросам безопасности и контроля. Поймать же машину будет все сложнее, если вообще возможно.