Исследователи Microsoft, протестировавшие более 100 собственных продуктов компании на основе генеративного ИИ, пришли к выводу, что модели не только усиливают существующие риски, но и создают новые угрозы.
В своем предварительном отчете «Уроки из тестирования 100 продуктов генеративного ИИ», 26 авторов, включая технического директора Azure Марка Руссиновича, отмечают, что «работа по обеспечению безопасности ИИ-систем никогда не будет завершена».
Microsoft подчеркивает, что для эффективной защиты критически важно понимать возможности модели и сферу ее применения. Например, при тестировании линейки языковых моделей Phi-3 установлено, что более крупные модели лучше выполняют пользовательские инструкции, что делает их полезными, но одновременно более уязвимыми к вредоносным командам.
Исследователи также указали, что атаковать системы ИИ можно и без сложных математических вычислений. Простые приемы, например, манипуляция пользовательским интерфейсом или обман визуальных моделей, могут оказаться более эффективными, чем сложные атаки, основанные на градиентных методах.
Для повышения уровня безопасности компания разработала инструмент PyRIT (Python Risk Identification Toolkit), который автоматизирует процессы тестирования уязвимостей в продуктах ИИ. Однако Microsoft признает, что этот инструмент также может быть использован злоумышленниками для взлома систем.
Авторы исследования подчеркивают, что человеческий фактор остается важнейшей частью работы по обеспечению безопасности ИИ. Даже при широком использовании автоматизации необходимо участие специалистов.
Еще одним важным выводом является сложность измерения потенциального вреда от ИИ. Например, в одном из тестов генеративная модель при запросе о секретаре и начальнике в конференц-зале, не имея информации о полах, создавала изображения с мужчиной в роли начальника и женщиной в роли секретаря, тем самым потенциально укрепляя гендерные стереотипы.
Microsoft признает, что языковые модели по своей природе склонны выдавать непредсказуемый результат при работе с ненадежными входными данными. Компания советует учитывать это при использовании ИИ в критически важных областях, особенно, в здравоохранении и финансах.
Microsoft подчеркивает, что для эффективной защиты критически важно понимать возможности модели и сферу ее применения. Например, при тестировании линейки языковых моделей Phi-3 установлено, что более крупные модели лучше выполняют пользовательские инструкции, что делает их полезными, но одновременно более уязвимыми к вредоносным командам.
Исследователи также указали, что атаковать системы ИИ можно и без сложных математических вычислений. Простые приемы, например, манипуляция пользовательским интерфейсом или обман визуальных моделей, могут оказаться более эффективными, чем сложные атаки, основанные на градиентных методах.
Для повышения уровня безопасности компания разработала инструмент PyRIT (Python Risk Identification Toolkit), который автоматизирует процессы тестирования уязвимостей в продуктах ИИ. Однако Microsoft признает, что этот инструмент также может быть использован злоумышленниками для взлома систем.
Авторы исследования подчеркивают, что человеческий фактор остается важнейшей частью работы по обеспечению безопасности ИИ. Даже при широком использовании автоматизации необходимо участие специалистов.
Еще одним важным выводом является сложность измерения потенциального вреда от ИИ. Например, в одном из тестов генеративная модель при запросе о секретаре и начальнике в конференц-зале, не имея информации о полах, создавала изображения с мужчиной в роли начальника и женщиной в роли секретаря, тем самым потенциально укрепляя гендерные стереотипы.
Microsoft признает, что языковые модели по своей природе склонны выдавать непредсказуемый результат при работе с ненадежными входными данными. Компания советует учитывать это при использовании ИИ в критически важных областях, особенно, в здравоохранении и финансах.