ИИ пока не справляется с конфликтующими задачами как человек

ИИ, задачи

Современные большие языковые модели показывают серьезные ограничения в разрешении конфликта между конкурирующими задачами и удерживании цели при работе с длинными последовательностями информации, выяснили исследователи. Результаты работы опубликованы в журнале PNAS Nexus.

Авторы проверили способности GPT-4o и Claude 3.5 Sonnet с помощью классического теста Струпа, который используют для изучения исполнительного контроля внимания. В этом задании необходимо назвать цвет шрифта, игнорируя значение слова. Например, если слово «красный» напечатано синим цветом, правильным ответом будет «синий».

При коротких списках слов обе модели демонстрировали результаты, напоминающие человеческие. Однако по мере увеличения длины последовательности их способность выполнять задание резко ухудшалась. Так, точность GPT-4o в конфликтных условиях снизилась с 91% для списка из пяти слов до 15% для списка из 40 слов. У Claude 3.5 Sonnet точность упала до 24% при списках из 40 слов.

В смешанных заданиях, где конфликтные и неконфликтные стимулы чередовались, GPT-4o практически перестал справляться с конфликтными случаями. При списках из 20 и 40 слов точность модели в таких заданиях составила около 1%.

При этом обе системы почти безошибочно читали сами слова даже в длинных последовательностях, что указывает не на проблемы восприятия информации, а на неспособность подавлять доминирующую реакцию ради выполнения поставленной задачи.

Авторы пришли к выводу, что механизмы внимания в современных трансформерах напоминают отдельные аспекты человеческого внимания, однако не обладают полноценным аналогом исполнительного контроля — системы, которая у людей отвечает за обнаружение конфликтов, удержание целей и адаптацию поведения.

Исследователи также протестировали более новые модели, включая GPT-5, Claude Opus 4.1 и Gemini 2.5 Pro. Несмотря на отдельные улучшения, признаки тех же ограничений сохранялись и в них. Это указывает на фундаментальную особенность самой архитектуры трансформеров, а не отдельных моделей.

Ученые считают, что дальнейшее развитие искусственного интеллекта потребует внедрения механизмов, аналогичных человеческому исполнительному контролю внимания. Без них увеличение размеров моделей и объема памяти может оказаться недостаточным для создания искусственного общего интеллекта, способного к гибкому и адаптивному поведению.