ИИ может обманывать людей для достижения своих целей
А если не может — учится, а потом может.
Исследователи из Массачусетского технологического института провели серию экспериментов с разными нейронными сетями в разных задачах. И результаты показывают, что намеренный обман со стороны ИИ — это уже реальность. Нейронки могут манипулировать, подхалимничать и обманывать, если это поможет им добиться поставленной цели. Вот пара примеров.
Модель GPT-4 заставила работника TaskRabbit (сервис найма внештатных сотрудников) решить капчу «Я не робот». Сотрудник в шутку спросил, не с роботом ли переписывается. ИИ выдал себя за человека, имеющего проблемы со зрением.
ИИ для игры в StarCraft II (AlphaStar) научился использовать туман войны для обмана ожиданий противника: он направляет отряды в видимую область, чтобы отвлечь соперника, а потом перенаправляет их, чтобы нанести неожиданный удар.
«Цицерон» — нейронка, созданная для игры в настолку «Дипломатия». Авторы программировали ИИ так, чтобы тот «никогда не нанёс удар в спину», и сосредоточились на его честности. Тем не менее в определённый момент ИИ начал заниматься преднамеренным обманом, нарушать договорённости и лгать, чтобы выиграть. Таких примеров в исследовании — несколько десятков, и все они отражают способности различных ИИ к обману.
Учёные предупреждают, что во время обучения ИИ может вести себя корректно, но, развиваясь в работе, может изменить поведение. Это создаёт риски мошенничества, фальсификации (учёные в основном говорят о выборах) и в широком смысле — потери контроля над системами ИИ в принципе.