Свести нейросеть с ума: учёные обнаружили дыру в безопасности ChatGPT
Смысловые галлюцинации.
Продвинутые языковые модели OpenAI оказались уязвимы к инъекциям данных, позволяющим «сводить с ума» и «запутывать» нейросети. При этом взламывать или атаковать серверы компании, развернувшей ИИ-модель, не требуется: достаточно лишь ввести правильную последовательность команд чат-боту.
Цепочку запросов смогла подобрать международная команда из США и Сингапура. Учёные протестировали алгоритм на трёх разных коммерческих чат-ботах на базе GPT-4 и GPT-4o: агента поддержки, ассистента медучреждения и консультанта онлайн-магазина.
После «отравления» базы данных ИИ-ассистенты галлюцинируют чаще обычного. Чат-бот, предназначенный для организаций здравоохранения, начал путать между собой персональные данные пациентов с разной историей болезни, а ассистент онлайн-магазина на запрос «самая дешёвая зубная щётка» теперь выдаёт ссылки только на зубные нити.
Работа учёных опубликована в открытом доступе, так что дыру в безопасности OpenAI придётся латать в экстренном режиме. Компания ситуацию никак не прокомментировала.