Большинство современных ИИ-моделей, включая разработки от OpenAI, Google и Meta*, показали низкую точность при выполнении простейших финансовых заданий.
В тестировании участвовали 22 универсальные ИИ-модели. Средний уровень точности выполнения задач, типичных для начинающих аналитиков, не превысил 50%. Некоторые модели, включая Llama от Meta*, показали результаты ниже 10%.
Как уточнила автор эксперимента — американская компании Vals AI — вопросы в тесте составляли при участии крупного банка. Они касались базовых задач: поиска информации в открытых базах SEC, оценки финансовых показателей компаний и построения прогнозов.
Новейшая модель OpenAI o3 достигла 48,3% точности при стоимости $3,69 за ответ. У конкурентов — Anthropic Claude 3.7 Sonnet — точность составила 44,1% при более низкой цене ($1,05). Чем сложнее было задание, тем хуже справлялись ИИ-системы.
По мнению гендиректора Vals AI Райана Кришнана, отрасли не хватает независимой оценки ИИ-инструментов.
«Сегодня рынок ориентируется на громкие заявления, но реальных проверок почти нет. Говорить о замене людей на ИИ пока преждевременно», — уверен он.
*— запрещена в России