Американец Ади Сингх создал сайт Minecraft Benchmark (MC-Bench), где пользователи могут голосовать, какие из построек в Minecraft лучше — не зная, какая из них создана GPT-4, Claude или другой ИИ-моделью. Только после голосования сайт открывается, какой ИИ сгенерировал код для каждой постройки.
В проекте уже участвуют OpenAI, Google, Anthropic и Alibaba — они предоставляют ресурсы для работы моделей, хотя официально не связаны с платформой. Формально это программный бенчмарк: ИИ получает текстовую задачу (например, построить «снежного человека» или «тропический пляжный домик») и пишет код, который MC-Bench визуализирует в Minecraft.
По словам Сингха, Minecraft — идеальная площадка для оценки прогресса в генеративных моделях, поскольку ее стиль узнаваем даже для тех, кто не играет. «А еще это весело: теперь оценивать ИИ можно не только по тестам, но и по тому, кто лучше строит песчаный замок», — говорит школьник.