Современные искусственные интеллектуальные системы — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — с трудом справляются со сложными историческими вопросами. Несмотря на успехи в программировании и обработке данных, ИИ продемонстрировал низкую точность в тесте по истории, разработанном на основе базы данных Seshat, которая содержит обширные сведения о мировой истории.
Исследование, представленное на конференции NeurIPS, показало, что лучшая из моделей, GPT-4 Turbo, достигла лишь 46% точности, что лишь ненамного превышает случайное угадывание. Как отметила соавтор исследования, доцент Университетского колледжа Лондона Мария дель Рио-Чанона, языковые модели хорошо справляются с базовыми фактами, но не обладают глубиной понимания, необходимой для сложного исторического анализа.
Например, при вопросе о наличии профессиональной армии в Древнем Египте модель ошибочно подтвердила этот факт, вероятно, опираясь на аналогичные данные о Персии и других древних цивилизациях. А на вопрос о чешуйчатых доспехов в Древнем Египте ИИ утвердил, что такие доспехи существовали в указанный период, хотя на самом деле они появились спустя 1 500 лет.
Исследователи полагают, что проблема связана с тем, что ИИ чаще полагается на широко известные исторические факты, игнорируя менее популярные сведения.
Также исследование выявило предвзятость в обучении моделей: OpenAI и Llama продемонстрировали худшие результаты при вопросах, касающихся истории Африки южнее Сахары.
Несмотря на существующие проблемы, ученые считают, что искусственный интеллект может стать ценным инструментом для историков. Исследователи работают над улучшением тестов, включая более сложные вопросы и расширенные исторические данные, которые позволят ИИ лучше понимать сложные исторические процессы.
Например, при вопросе о наличии профессиональной армии в Древнем Египте модель ошибочно подтвердила этот факт, вероятно, опираясь на аналогичные данные о Персии и других древних цивилизациях. А на вопрос о чешуйчатых доспехов в Древнем Египте ИИ утвердил, что такие доспехи существовали в указанный период, хотя на самом деле они появились спустя 1 500 лет.
Исследователи полагают, что проблема связана с тем, что ИИ чаще полагается на широко известные исторические факты, игнорируя менее популярные сведения.
Также исследование выявило предвзятость в обучении моделей: OpenAI и Llama продемонстрировали худшие результаты при вопросах, касающихся истории Африки южнее Сахары.
Несмотря на существующие проблемы, ученые считают, что искусственный интеллект может стать ценным инструментом для историков. Исследователи работают над улучшением тестов, включая более сложные вопросы и расширенные исторические данные, которые позволят ИИ лучше понимать сложные исторические процессы.