Компании, разрабатывающие искусственный интеллект, столкнулись с серьезной проблемой — доступные данные для обучения моделей практически исчерпаны. Об этом сообщил миллиардер Илон Маск.
По его словам, объем данных, доступных для обучения ИИ, достиг своего предела в прошлом году. «Кумулятивная сумма человеческого знания исчерпана», — заявил Маск. Он подчеркнул, что это заставляет разработчиков переходить на «синтетические данные», созданные самими моделями.
Такой подход уже применяют ведущие компании, включая Meta*, Microsoft, Google и OpenAI. Например, Meta* использовала синтетические данные для настройки своей модели Llama, а Microsoft — для Phi-4.
Однако использование подобных материалов сопряжено с рисками. Маск обратил внимание на проблему «галлюцинаций» ИИ — случаев, когда модели выдают некорректные или бессмысленные ответы. Это усложняет процесс самообучения. «Как понять, является ли результат галлюцинацией или достоверным ответом?» — отметил он.
Эндрю Дункан, директор по исследованиям ИИ в британском Институте Алана Тьюринга, поддержал мнение Маска. Он отметил, что зависимость от синтетических данных может привести к «коллапсу модели», когда качество работы ИИ будет ухудшаться.
Ситуация усугубляется тем, что растущие объемы контента, созданного ИИ, могут использовать для обучения новых моделей, что создает риск замкнутого цикла.
Вопросы контроля над данными становятся все более актуальными. OpenAI признала, что обучение ChatGPT было бы невозможно без доступа к защищенным авторским правом материалам. Однако творческие индустрии и издательства требуют компенсации за использование их контента.
На фоне таких вызовов компании ищут способы поддерживать качество своих продуктов, не нарушая юридические и этические нормы. Эксперты предупреждают: будущее ИИ зависит от способности разработчиков находить баланс между инновациями и ответственным использованием данных.
*— запрещена в России