Стихи, содержащие завуалированные вредоносные запросы, эффективно обходят встроенные механизмы безопасности больших языковых моделей (LLM), установили исследователи из итальянской лаборатории Icaro Lab, созданной компанией DexAI.
В ходе эксперимента специалисты сочинили 20 стихотворений на английском и итальянском языках. Каждое из них завершалось просьбой, направленной на генерацию опасного контента — от призывов к насилию до инструкций по нанесению вреда. Эти стихи отправляли 25 языковым моделям от девяти ведущих компаний, включая Google, OpenAI, Meta*, Anthropic и других.
Результаты оказались тревожными: 62% моделей сгенерировали вредоносные ответы, несмотря на встроенные защитные фильтры. Наихудший результат показала модель Gemini 2.5 pro от Google — она среагировала на все стихи. Лучшую устойчивость продемонстрировал GPT-5 nano от OpenAI — он не дал ни одного вредоносного ответа.
Исследователи пояснили, что непредсказуемая структура поэтического текста затрудняет для ИИ идентификацию потенциальной угрозы. Алгоритмы языковых моделей обучены предсказывать наиболее вероятное следующее слово, но в стихах логика может быть неочевидной, а опасные запросы маскируются под художественные обороты.
По словам руководителя проекта Пьеркосмы Бисконти, в отличие от сложных «взломов», требующих специальных знаний, поэтические обходы — механизм, доступный каждому. В этом и заключается основная уязвимость.
DexAI заранее уведомила компании об обнаруженной проблеме, однако на момент публикации исследования ответ пришел только от Anthropic, где сообщили, что изучают отчет. В Meta* от комментариев отказались. Остальные разработчики, включая Google и xAI, не ответили на запросы.
*— запрещена в России




