Китайская модель ИИ бросает вызов лидерам отрасли Meta* и OpenAI

31.12.2024

Китайский стартап DeepSeek представил языковую модель DeepSeek V3, которая в тестах показала результаты лучше, чем модели от Meta* и OpenAI.

На ее обучение ушло два месяца и около 5,58 млн долларов, при этом разрабочики использовали примерно в 11 раз меньше вычислительных ресурсов, чем у аналогов. За счет этого значительно сократилась и стоимость ИИ-модели от DeepSeek.

Модель обучали на видеокартах Nvidia H800, адаптированных для китайского рынка. Для сравнения, Meta* использовала 30,8 миллиона вычислительных часов и более продвинутые чипы Nvidia H100 для своей модели Llama 3.1. Однако из-за санкций США эти чипы недоступны для экспорта в Китай.

DeepSeek V3 обладает 671 миллиардом параметров, что делает ее мощным инструментом для генеративного ИИ. По данным бенчмарков, она превосходит модели Meta’s Llama 3.1 и Qwen 2.5 от Alibaba, а также сопоставима с GPT-4 от OpenAI.

Андре Карпати, один из основателей OpenAI, отметил, что DeepSeek удалось достичь впечатляющих результатов с минимальными затратами.

DeepSeek создан как часть компании High-Flyer Quant, которая использует ИИ для работы одного из крупнейших хедж-фондов в Китае. Компания ранее вложила более 1 миллиарда юаней в развитие своих вычислительных кластеров и технологий искусственного интеллекта.

DeepSeek заявляет, что их цель — разработка ИИ для всеобщего блага. Модель уже используют разработчики для создания приложений и чат-ботов.

*принадлежит Meta, признанной в РФ экстремистской организацией и запрещенной