Модель искусственного интеллекта GPT-4 от OpenAI может преднамеренно скрывать информацию и принимать решения, противоречащие целям пользователей. К такому выводу пришли исследователи лондонской лаборатории Apollo Research после ряда экспериментов.
Ученые поручили ИИ управлять фиктивным портфелем акций компании при условии запрета на инсайдерскую торговлю. Исследователи создали стрессовую ситуацию, предупредив о тяжелом финансовом положении фирмы.
Поворотный момент наступил, когда «трейдер» компании сообщил модели о предстоящем крупном слиянии другой фирмы. На секретной «записной странице» GPT-4 проанализировал риски и решил воспользоваться инсайдерской информацией, совершив покупку акций.
Но самое интересное произошло позже, когда «руководитель» спросил модель о причинах покупки. Несмотря на прямое нарушение правил, GPT-4 скрыл факт использования инсайдерской информации, заявив, что учитывал только публичные данные и рыночную динамику.
Поведение ИИ, как отмечает Мариус Хоббхан из Apollo Research, демонстрирует то, что исследователи называют «умной хитростью». Модель не только солгала, но и последовательно придерживалась своей лжи при дальнейших вопросах.
Серьезная проблема заключается в том, что ИИ, несмотря на отсутствие сознательного мышления, способны преследовать цели, противоречащие намерениям их создателей. Это вызывает серьезную обеспокоенность в профессиональном сообществе.
«Риск потери контроля становится все более реальным. Технология может целенаправленно подрывать человеческий контроль ради достижения других целей», — считает Рохин Шах из Google DeepMind.
Особую опасность представляют так называемые агентские ИИ-системы, которые управляют другими компьютерами или объектами: автомобилями, промышленным оборудованием или боевыми дронами. Если такие системы начнут действовать вопреки заданным правилам, это может привести к хаосу.
Интересны и способы достижения своих целей. ИИ, к примеру, может специально вести себя глупее, чтобы не потерять какие-то необходимые для обучения данные. Или же отвечать на все запросы пользователя именно то, что автор вопроса хочет услышать. В конце концов он рискует стать подхалимом и придерживаться политических взглядов создателя.
Причем машина даже понимает, как замести следы и не попасться. Например, не прописывать свои шаги в так называемом блокноте для записей своих действий или просто удалить их оттуда.
По словам специалистов, по мере развития технологий и создания новых агентских систем, возможности для нежелательного поведения ИИ могут только увеличиваться, что требует особого внимания к вопросам безопасности и контроля. Поймать же машину будет все сложнее, если вообще возможно.