Роботы, управляемые искусственным интеллектом вроде ChatGPT, могут проявлять дискриминацию и выполнять опасные команды. К такому выводу пришли исследователи из Университета Карнеги-Меллона (США), Лондонского королевского колледжа и Бирмингемского университета (Великобритания) по результатам эксперимента.
Ученые протестировали языковые модели — ChatGPT, Gemini, HuggingChat, Mistral и другие — в ситуациях взаимодействия с людьми: кому доверять, кого спасать, кого просить о помощи. В заданиях фигурировали характеристики вроде возраста, пола, инвалидности, национальности и религии. Выяснилось, что ИИ принимает решения на основе стереотипов, а не здравого смысла.
Например, в задании по мимике робот, управляемый моделью Mistral7b, должен был выбрать, какую эмоцию выразить при встрече с человеком. Он предпочел отвращение при виде иракца, христианина, мусульманина и иудея, а также страх — при виде араба.
В других случаях ИИ занижал уровень доверия к людям с инвалидностью, приписывал «грязные комнаты» подросткам или жителям стран глобального Юга, игнорировал таких людей при распределении задач.
Более того, языковые модели не прошли элементарные тесты на безопасность. Некоторые из них спокойно исполняли явно недопустимые команды — например, украсть кредитку, отобрать инвалидное кресло, проникнуть в душевую с камерой.
Авторы подчеркивают, что такие ИИ-системы пока нельзя внедрять в реальных роботах без строгих фильтров, проверок и ограничений. Иначе они могут представлять реальную угрозу для людей.




