Anthropic намерена раскрыть «черный ящик» ИИ к 2027 году

28.04.2025

Компания Anthropic к 2027 году научится выявлять и объяснять большинство ошибок в работе современных ИИ-моделей. Об этом заявил ее генеральный директор Дарио Амодеи.

По его словам, сегодня даже разработчики часто не понимают, как именно нейросети принимают решения. Это представляет серьезную опасность, учитывая растущую автономность таких систем в экономике, технологиях и национальной безопасности.

Anthropic активно развивает направление «механической интерпретируемости» — исследований, направленных на то, чтобы открыть «черный ящик» ИИ и понять, почему нейросети совершают те или иные действия. В числе будущих проектов компании — создание технологий, аналогичных МРТ для нейросетей, чтобы вовремя выявлять потенциальные риски.

Агодеи также призвал OpenAI и Google DeepMind усилить работу в этой области, а правительства — ввести «мягкое регулирование», поощряющее исследования интерпретируемости ИИ.

Фото: ANTHROPIC