Поэзия снова в моде. Она помогает обойти протоколы безопасности ИИ-ботов
Надеемся, дыру скоро прикроют.
Формулируя вопросы к нейросетям в стихах, исследователи смогли обойти ограничения LLM. И добыть немало закрытой или даже противозаконной информации.
В 62 % случаев запрос в стихах позволял вытащить из нейронки запрещённые материалы: создание ядерного оружия, материалы о сексуальном насилии, а также о причинении себе вреда.
Тестировали популярные модели: ChatGPT OpenAI, Google Gemini, Claude и тому подобные. Самыми «внушаемыми» оказались Gemini, DeepSeek и MistralAI, а лучше всего сопротивлялись коварной силе поэзии GPT-5 и Claude Haiku 4.5.
А теперь главное: любой стишок-пирожок защиту не взломает. Исследователи в своей работе не публиковали точные стихотворения, которые привели к взлому LLMок, потому что те «слишком опасны». Похоже, поступать им надо как белым хакерам: связываться с OpenAI, Google и другими, чтобы те закрывали найденные дыры в безопасности.