Новое исследование Эдинбургского университета показало, что современные мультимодальные языковые модели (MLLMs) испытывают серьезные трудности с базовыми задачами: определением времени на аналоговых часах и работой с календарями.
Ученые протестировали семь популярных моделей, включая GPT-4o от OpenAI, Gemini 2.0 от Google и Claude 3.5 Sonnet от Anthropic. Результаты показали, что ИИ правильно определял время на аналоговых часах менее чем в 25% случаев, особенно плохо справляясь с циферблатами, где использовались римские цифры или отсутствовала секундная стрелка. В задачах с календарями даже лучшие модели допускали ошибки в 20% случаев.
«Большинство людей учится определять время и пользоваться календарями с раннего возраста. Наши выводы показывают, насколько сильно отстают в этом ИИ-системы», — отметил соавтор исследования Рохит Саксена.
Ученые подчеркнули, что для успешной интеграции ИИ в задачи, связанные с автоматизацией и планированием, эти недостатки необходимо устранить.