Поэзия снова в моде. Она помогает обойти протоколы безопасности ИИ-ботов — Wylsacom

Поэзия снова в моде. Она помогает обойти протоколы безопасности ИИ-ботов

Надеемся, дыру скоро прикроют.

Иллюстрация: Светлана Чувилёва / Wylsacom Media

Формулируя вопросы к нейросетям в стихах, исследователи смогли обойти ограничения LLM. И добыть немало закрытой или даже противозаконной информации.

В 62 % случаев запрос в стихах позволял вытащить из нейронки запрещённые материалы: создание ядерного оружия, материалы о сексуальном насилии, а также о причинении себе вреда.

Тестировали популярные модели: ChatGPT OpenAI, Google Gemini, Claude и тому подобные. Самыми «внушаемыми» оказались Gemini, DeepSeek и MistralAI, а лучше всего сопротивлялись коварной силе поэзии GPT-5 и Claude Haiku 4.5.

А теперь главное: любой стишок-пирожок защиту не взломает. Исследователи в своей работе не публиковали точные стихотворения, которые привели к взлому LLMок, потому что те «слишком опасны». Похоже, поступать им надо как белым хакерам: связываться с OpenAI, Google и другими, чтобы те закрывали найденные дыры в безопасности.