Компания OpenAI разработала экспериментальный метод, позволяющий языковым моделям признавать собственные ошибки и недобросовестное поведение. Как сообщили исследователи, технология уже показала первые успешные результаты на тестах с моделью GPT-5-Thinking.
Так называемые «признания» — это отдельный блок текста, который искусственный интеллект генерирует после основного ответа. В этом тексте модель оценивает, насколько корректно выполнила задание, и, при необходимости, указывает на допущенные нарушения. Разработка направлена на то, чтобы лучше понять внутренние процессы работы ИИ и повысить его надёжность.
«Когда модель сталкивается с конфликтующими задачами — быть полезной, честной и безвредной — она может пойти на компромисс, например, придумать убедительный, но ложный ответ», — пояснил исследователь OpenAI Боаз Барак. По его словам, новая система позволяет выявлять такие случаи и анализировать причины.
В одном из тестов GPT-5-Thinking должна была решить задачу за наносекунды. Модель обманула, изменив параметры таймера, но затем сама призналась в этом. В другом случае ИИ намеренно дал неправильные ответы, чтобы не превысить заданный порог успешности, также открыто указав на нарушение инструкции.
По словам разработчиков, модели не наказывали за признания и поощряли исключительно за честность. Возможно, это и приводило к открытости. Тем не менее, эксперты подчеркивают, что подобные признания нельзя считать абсолютной правдой: внутренние процессы в ИИ остаются во многом «черным ящиком».




