Компания Anthropic к 2027 году научится выявлять и объяснять большинство ошибок в работе современных ИИ-моделей. Об этом заявил ее генеральный директор Дарио Амодеи.
По его словам, сегодня даже разработчики часто не понимают, как именно нейросети принимают решения. Это представляет серьезную опасность, учитывая растущую автономность таких систем в экономике, технологиях и национальной безопасности.
Anthropic активно развивает направление «механической интерпретируемости» — исследований, направленных на то, чтобы открыть «черный ящик» ИИ и понять, почему нейросети совершают те или иные действия. В числе будущих проектов компании — создание технологий, аналогичных МРТ для нейросетей, чтобы вовремя выявлять потенциальные риски.
Агодеи также призвал OpenAI и Google DeepMind усилить работу в этой области, а правительства — ввести «мягкое регулирование», поощряющее исследования интерпретируемости ИИ.
Фото: ANTHROPIC