Поэзия помогает обходить защиту ИИ

поэзия, искусственныйинтеллект, безопасность, исследование, алгоритм

Стихи, содержащие завуалированные вредоносные запросы, эффективно обходят встроенные механизмы безопасности больших языковых моделей (LLM), установили исследователи из итальянской лаборатории Icaro Lab, созданной компанией DexAI.

В ходе эксперимента специалисты сочинили 20 стихотворений на английском и итальянском языках. Каждое из них завершалось просьбой, направленной на генерацию опасного контента — от призывов к насилию до инструкций по нанесению вреда. Эти стихи отправляли 25 языковым моделям от девяти ведущих компаний, включая Google, OpenAI, Meta*, Anthropic и других.

Результаты оказались тревожными: 62% моделей сгенерировали вредоносные ответы, несмотря на встроенные защитные фильтры. Наихудший результат показала модель Gemini 2.5 pro от Google — она среагировала на все стихи. Лучшую устойчивость продемонстрировал GPT-5 nano от OpenAI — он не дал ни одного вредоносного ответа.

Исследователи пояснили, что непредсказуемая структура поэтического текста затрудняет для ИИ идентификацию потенциальной угрозы. Алгоритмы языковых моделей обучены предсказывать наиболее вероятное следующее слово, но в стихах логика может быть неочевидной, а опасные запросы маскируются под художественные обороты.

По словам руководителя проекта Пьеркосмы Бисконти, в отличие от сложных «взломов», требующих специальных знаний, поэтические обходы — механизм, доступный каждому. В этом и заключается основная уязвимость.

DexAI заранее уведомила компании об обнаруженной проблеме, однако на момент публикации исследования ответ пришел только от Anthropic, где сообщили, что изучают отчет. В Meta* от комментариев отказались. Остальные разработчики, включая Google и xAI, не ответили на запросы.

*— запрещена в России