Эксперты в области искусственного интеллекта говорят о необходимости обязательного независимого аудита новых моделей ИИ. Сегодня крупнейшие компании, включая OpenAI, Anthropic и Google проверяют свои модели самостоятельно, добровольно соглашаясь на внутренние и внешние тесты. Однако отсутствие обязательных проверок вызывает критику.
Мариус Хоббхан из некоммерческой организации Apollo Research подчеркивает, что разработчики сталкиваются с конфликтом интересов: компании заинтересованы в том, чтобы тесты показывали минимальное количество проблем, что может снижать надежность результатов.
Эксперт предлагают ввести независимый аудит по аналогии с финансовыми проверками. Вопрос стал еще актуальнее на фоне стремительного прогресса ИИ, когда каждая новая модель демонстрирует способности, которые еще недавно считались невозможными.
Раньше технологиям требовались годы, чтобы достичь уровня человека в специализированных задачах. Например, в игре го ИИ победил человека спустя 50 лет после появления первой компьютерной программы для этой игры. Сегодня ИИ справляются со сложнейшими тестами за считаные месяцы. Модель GPT-4o от OpenAI, выпущенная в мае, показала результат 88% на тесте MMLU, который охватывает 16 тысяч вопросов по философии, медицине и праву. Новейшая версия этой модели, o1, увеличила показатель до 92,3%.
В ответ на этот прогресс разработчики тестов создают более сложные и многоуровневые проверки. Например, некоммерческая организация Epoch AI представила тест FrontierMath, требующий уровня подготовки международной математической олимпиады и выше. В ноябре текущего года модели справлялись с ними всего на 2%, но уже в декабре новая версия модели OpenAI, o3, достигла 25,2%.
Ключевая сложность разработки тестов заключается в их стоимости и сложности. Разработка одной оценки обходится от 1 до 10 тысяч долларов за модель, особенно если требуется длительное тестирование.
Эксперт предлагают ввести независимый аудит по аналогии с финансовыми проверками. Вопрос стал еще актуальнее на фоне стремительного прогресса ИИ, когда каждая новая модель демонстрирует способности, которые еще недавно считались невозможными.
Раньше технологиям требовались годы, чтобы достичь уровня человека в специализированных задачах. Например, в игре го ИИ победил человека спустя 50 лет после появления первой компьютерной программы для этой игры. Сегодня ИИ справляются со сложнейшими тестами за считаные месяцы. Модель GPT-4o от OpenAI, выпущенная в мае, показала результат 88% на тесте MMLU, который охватывает 16 тысяч вопросов по философии, медицине и праву. Новейшая версия этой модели, o1, увеличила показатель до 92,3%.
В ответ на этот прогресс разработчики тестов создают более сложные и многоуровневые проверки. Например, некоммерческая организация Epoch AI представила тест FrontierMath, требующий уровня подготовки международной математической олимпиады и выше. В ноябре текущего года модели справлялись с ними всего на 2%, но уже в декабре новая версия модели OpenAI, o3, достигла 25,2%.
Ключевая сложность разработки тестов заключается в их стоимости и сложности. Разработка одной оценки обходится от 1 до 10 тысяч долларов за модель, особенно если требуется длительное тестирование.