Ученые нашли причину невнимательности нейросетей

нейросети, внимательность ИИ, большие языковые модели, ChatGPT, улучшение обработки текста

Исследователи Массачусетского технологического института объяснили, почему большие языковые модели (LLM), например, ChatGPT или DeepSeek, хуже обрабатывают информацию из середины текста. Оказалось, что проблема кроется в настройках и обучающих данных.

По словам специалистов, давно замечено, что LLM хорошо понимает начало и конец текста, но в середине материала точность анализа снижается на 25%.

Исследование показало, модели читают текст по частям и как бы «приглядываются» к самым значимым словам, чтобы правильно его интерпретировать. Но из-за некоторых технических настроек — например, ограничения видеть только предыдущие слова или указания порядка слов — возникает смещение.

Особенно это заметно в больших моделях, а именно, GPT-4, у которых много слоев анализа.

Кроме того, предвзятость LLM зависит от обучающих данных. Если в них больше акцента на начало и конец, то и модель будет демонстрировать подобное поведение.

Ученые Массачусетского технологического института предлагают несколько способов улучшить обработку информации LLM: изменить приоритеты внимания, уменьшить количество слоев обработки или улучшить позиционные подсказки. Это особенно важно для чат-ботов, медицинских ИИ и программных помощников, где точность обработки информации критична.

В институте уже начали тестирование новых настроек, которые показали улучшение точности в середине текста на 15-20%.